最近興味を持った論文リスト

Intel ResearchはETA projectにてマルチプロセッササーバのXeon processorをパケットプロセッシングエンジンとして用いるソフトウェアプロトタイプを開発した。
これはサーバにおけるTCP/IPネットワーキングをアクセラレートする為のモデルになる。
ETAプロトタイプはAMPな動作を行う、つまりパケットプロセッシングエンジンなCPUはホストOS上のリソースの上で動作しない。

2005

Architectural Characterization of Processor Affinity in Network Processing

Affinityによるネットワークプロセッシングパフォーマンスへの影響について

An in-depth analysis of the impact of processor affinity on network performance

同上

Direct Cache Access for High Bandwidth Network I/O

DCAの仕組みと効果について。

Accelerating Network Receive Processing

IO/ATの紹介

2006

An Evaluation of Network Stack Parallelization Strategies in Modern Operating Systems

Network stackのMP最適化方法に、Message based parallelismとConnection based parallelismの2つがあって、Connection based parallelismの方が性能を出しやすい。

Supra-linear Packet Processing Performance with Intel Multi-core Processors

パケットプロセスを行うユーザプログラムをマルチコア環境へ最適化する。

Evaluating Network Processing Efficiency with Processor Partitioning and Asynchronous I/O

Asynchronous I/O用の新しいカーネル構造・インタフェースとその性能評価。

2007

Impact of Cache Coherence Protocols on the Processing of Network Traffic

コヒーレンスプロトコルへのDCA実装について

The Performance Analysis of Linux Networking – Packet Receiving

slide
Linux カーネルのネットワークスタックに対するパフォーマンス解析

Potential performance bottleneck in Linux TCP

Linux TCPに対するパフォーマンスボトルネック解析

Interactivity vs. fairness in networked Linux systems

スケジューリングと通信性能に関する解析

2009

MiAMI: Multi-Core Aware Processor Affinity for TCP/IP over Multiple Network Interfaces

Helios: heterogeneous multiprocessing with satellite kernels

x86とARMのヘテロ環境にて、ARMで動く「サテライトカーネル」にてネットワークスタックとNICドライバを動かし、x86の「コーディネータカーネル」とリモートチャンネルで通信してデータの受け渡しを行う、と言うようなヘテロでマルチカーネルなOSを作った。
サテライトカーネルを使うことによりパケット処理をオフローディングして性能を稼ぐことが出来る事を実測値で検証した。

Characterization of Direct Cache Access on multi-core systems and 10GbE

DCAによって最後まで残っていたメモリパフォーマンスの悪さの問題が解決し10Gでも十分なパフォーマンスが得られるようになるが、マルチコアにおいてはコアへの適切な分散が行われている事が重要で、これが正しく行われていればDCAでかなりのパフォーマンス向上を得ることが出来る。
将来、40GbE, 100GbEになると更に追加の改良が必要になるが、そのような改良の一例としてユーザーモードネットワークスタックやiWARPのようなオフローディングが考えられる。

Sorting reordered packets with interrupt coalescing

リオーダが必要なパケットをソートする。

EINIC: an architecture for high bandwidth network I/O on multi-core processors

EINIC（Enhanced Integrated NIC）を提案。
共有キャッシュ（2次か3次）を分割し一部をIO用の領域として用い、パケットデータのキャッシュに使う。

A Multi-Threaded Network Interface Using Network Processors

IXP28xx Network ProcessorをPCIボードとして使用し、マルチスレッド化されたネットワークインタフェースを実装した。

Improved Forwarding Architecture and Resource Management for Multi-Core Software Routers

multiqueueへ最適化する事でsoftware routerを高速化

Environmental Independence: BSD Kernel TCP/IP in Userspace

NetBSD rumpによるネットワークスタックのユーザ空間実装について

2010

On-chip FIFO cache for network I/O: A feasibility study

メインプロセッサのキャッシュに頼らず、ネットワークデータをキャッシュする分離されたFIFOキャッシュを用意し性能の向上を図る。

ICTCP: Incast Congestion Control for TCP

TCPのスループットを改善する為のプロトコル改良

High Speed Network Traffic Analysis with Commodity Multi-core Systems

Multiqueue packet capturing on Linux

Virtual networks: isolation, performance, and trends

Network I/O fairness in virtual machines

A Study of Hardware Assisted IP over InfiniBand andits Impact on Enterprise Data Center Performance

IP over InfiniBandに関する調査

2011

Why Can Some Advanced Ethernet NICs Cause Packet Reordering?

何故Intel Ethernet Flow DirectorがTCPパケットの受信においてpacket reorderingを発生させてしまうのか、その原因を説明する。
Flow DirectorではRSSのハッシュテーブルの先にリンクドリストを持つことにより、各フローの情報を確実に管理し、かつフローが属するCPUを追跡出来るようにしている。
Flow DirectorではOSからアプリケーションの実行されているCPUを教える事で配達先CPUを追跡出来るのだが、Process Migrationの度にキューが変わってしまい、ここでPacket reorderが発生する余地が出来てしまう。これが著しくパフォーマンスをデグレートさせる。
プロセスをpinningするのは有効な対処法だが、もっと根本的にはNICの構造を改良する必要があると考える。