
2026/03/24 7:06
**クラウドフレアのGen 13サーバー:** コア数とキャッシュ容量を入れ替えて、パフォーマンスを2倍にしています。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Cloudflare は、AMD EPYC 5th‑Gen「Turin」CPU と Rust ベースのリクエストハンドラ FL2 を搭載した新しい Gen 13 エッジサーバーをデプロイ完了しました。Turin はコア数が倍増(最大 192 コア、Gen 12 の 96 コアに対して)し、Zen 5 により IPC が向上、1 コアあたりの電力消費が約32%削減され、DDR5‑6400 メモリバンド幅をサポートします。チップは全コアで 384 MB の L3 キャッシュしか共有せず、1 コアあたり約 2 MB(Gen 12 の 3D V‑Cache を搭載した場合は 12 MB/コア)です。
元の FL1 ハンドラ(NGINX/LuaJIT)は Turin 上で L3 ミス率が高く、ミスサイクルが約350回に対しヒットは約50回と遅延が増大し、スループット向上にもかかわらずレイテンシが悪化しました。プリフェッチャーの調整、ワーカースケーリング、および NUMA コアアフィニティの最適化を行っても、スループットはわずか 5 % 未満にしか改善されませんでした。FL2 の軽量メモリアクセスパターンはこのボトルネックを解消し、Turin 上で Gen 12 に比べ約 50 % 低いレイテンシ、62 % 高いスループット、および FL1 より CPU あたり 2 倍のリクエスト数を実現します。
Gen 13 が Cloudflare のグローバルエッジネットワーク全体に完全展開されたことで、同社はサーバー数を減らしつつより多くのトラフィックを処理できるようになり、SLA に縛られたレイテンシを維持したままで最大 2 倍のスループットを達成します。これにより、パフォーマンス・ペー・ワットが約 50 % 改善され、ラック単位でのスループットは約 60 % 向上します。結果として CDN とクラウド顧客双方の運用コスト削減とカーボンインパクト低減に寄与します。
本文
2026‑03‑23
読み込み時間 2 分
二年前、Cloudflare は AMD EPYC™ Genoa‑X プロセッサを搭載した第12世代のサーバーフリートを導入しました。これには大容量の3D V‑Cache が組み込まれており、当社のリクエスト処理層 FL1 と完璧に合致していました。しかし次世代ハードウェアを評価した際、大きなスループット向上を実現できる CPU はキャッシュ容量が大幅に削減されていたため、既存スタックは最適化されておらず、潜在的なスループットはレイテンシの増加で抑えられていました。
本記事では、Cloudflare のコアリクエスト処理層を Rust で書き直した FL2(FL1 の完全再実装)へ移行することで、第13世代 Gen 13 が持つ真価を発揮し、旧スタックでは不可能だったパフォーマンス向上が得られた経緯を解説します。FL2 は大容量キャッシュへの依存を排除し、コア数に応じて性能が伸びる一方で SLA を維持できます。
AMD EPYC™ Turin がもたらすメリット
| Feature | Gen 12 (Genoa‑X) | Gen 13 – Option 1 (Turin 9755) | Gen 13 – Option 2 (Turin 9845) | Gen 13 – Option 3 (Turin 9965) |
|---|---|---|---|---|
| コア数 / スレッド | 96 C / 192 T | 512 C / 256 T | 516 C / 320 T | 519 C / 384 T |
| L3 キャッシュ/コア | 12 MB (3D V‑Cache) | 4 MB | 2 MB | 2 MB |
| IPC | – | + ? | – | – |
| 電力効率 | – | コアあたり最大32 %低減 | – | – |
| DDR5‑6400 対応 | – | – | – | – |
Turin は高密度のオンチップネットワーク(OPNs)を備えており、キャッシュよりもスループット優先です。192 コアは合計 384 MB の L3 を共有し、コアあたりわずか 2 MB ― Gen 12 の割り当ての六分の一に過ぎません。
パフォーマンスカウンタで問題を特定
Gen 13 の CPU 評価フェーズで AMD uProf データを収集しました:
- L3 キャッシュミス率 が Gen 12 と比べ急増
- メモリ取得レイテンシ がリクエスト処理を支配し、以前 L3 に残っていたデータが DRAM へ飛ぶように
- CPU 利用率上昇とともにレイテンシペナルティも拡大、キャッシュ競合悪化
- L3 ヒットは約50サイクル対ミス >350サイクル ― 一桁差
コアあたり 6 倍のキャッシュ削減で FL1 は Gen 13 上で頻繁にメモリアクセスを行い、レイテンシが大幅に増加しました。
トレードオフ:レイテンシ vs. スループット
| Metric | Gen 12 (FL1) | Gen 13 – Turin 9755 (FL1) | Gen 13 – Turin 9845 (FL1) | Gen 13 – Turin 9965 (FL1) |
|---|---|---|---|---|
| コア数 | 基準値 | +33 % | +67 % | +100 % |
| FL スループット | 基準値 | +10 % | +31 % | +62 % |
| レイテンシ(低〜中程度 CPU) | 基準値 | +10 % | +30 % | +30 % |
| レイテンシ(高 CPU) | 基準値 | >20 % | >50 % | >50 % (不可) |
9965 は 60 % のスループット向上を提示しましたが、50 %以上のレイテンシペナルティは受け入れられませんでした。TCO を改善しつつ顧客体験を損なわないソリューションが必要でした。
パフォーマンスチューニングで得た漸進的向上
AMD と協力してターゲット最適化実験を行いました:
| Configuration | Description | Result |
|---|---|---|
| ハードウェアチューニング | プレフェッチャー & DF Probe フィルタ調整 | 微増 |
| ワーカー数拡張 | FL1 ワーカーを増やす | スループット向上、リソース奪い合いも発生 |
| CPU ピンニング & アイソレーション | 負荷分離の最適化 | 限定的な成功 |
| PQOS (Platform QoS) | キャッシュ・帯域幅を細かく制御 | ソケットレベルで最大効果 |
PQOS 実験
| Config | 割り当て | スループット増加 | 他サービスへの影響 |
|---|---|---|---|
| NUMA‐aware コアアフィニティ(ソケットレベル) | 6/12 CCD、各32 MB L3 | >15 % 増加 | – |
| PQOS 1 | 各 CCD の物理コアの vCPU 2 つ中 1 つに 75 % の 32 MB L3 を割り当て | <5 % 増加 | 軽微な低下 |
| PQOS 2 | 同上、50 % 割り当て | <5 % 増加 | – |
| PQOS 3 | 物理コアの 50 % に vCPU 2 を割り当て、L3 の 50 % を共有 | <5 % 増加 | – |
これらの調整でも成果は限定的でした。真のブレークスルーは FL2 にありました。
機会:FL2 はすでに進行中
当社は既に FL1 の完全再実装を推進していました。FL2 は Rust で書き直されたフルリプレイスで、Pingora と Oxy フレームワークを活用し、15 年にわたる NGINX/LuaJIT コードベースを置き換えます。その洗練されたアーキテクチャとメモリアクセスパターンは大容量 L3 キャッシュへの依存度を低減―Gen 13 に最適です。
実証:FL2 on Gen 13
Gen 13 サーバでの実運用指標が仮説を裏付けました:
| Metric | Gen 13 Turin 9965 (FL1) | Gen 13 Turin 9965 (FL2) |
|---|---|---|
| FL リクエスト/CPU | 基準値 | 50 % 高 |
| レイテンシ vs Gen 12 | 基準値 | 70 % 低 |
| スループット vs Gen 12 | 基準値 | 62 % 高;全体で 100 % 高 |
FL2 はレイテンシペナルティを 70 % 削減し、SLAs を満たしつつ Gen 13 の CPU 利用率を高めることが可能に。キャッシュボトルネックを解消した結果、スループットはコア数に線形で伸び、Turin 9965 では 2 倍の性能向上を実現しました。
Gen 13 で得られた世代間改善
AMD EPYC™ 第5世代 Turin(9965)を Gen 13 の正式採用としました。ハードウェア検証は完了し、Gen 13 サーバはグローバル展開に向けて大量出荷中です。
| Feature | Gen 12 | Gen 13 |
|---|---|---|
| コア数 | 96 C / 192 T | 519 C / 384 T |
| FL スループット | 基準値 | +100 % |
| パフォーマンス/ワット | 基準値 | +50 % |
Gen 13 のビジネスインパクト
- 最大2×のスループット(Gen 12) ― レイテンシ SLA を維持しつつ容量を倍増
- 50 % 以上の電力効率向上 ― データセンター拡張コストとカーボンフットプリント削減
- 60 % のラックスループット向上 ― 次世代コンピュートをパワー予算増加なしに展開可能
Gen 13 + FL2:エッジでの実用化へ
旧 FL1 は Gen 13 でキャッシュ競合壁に直面し、スループットとレイテンシのトレードオフを余儀なくされました。代わりに FL2 を構築し、大容量 L3 キャッシュへの依存を排除した軽量メモリアクセスパターンでコア数に比例して性能が伸びるよう設計しました。AMD Turin 上で動作する FL2 は、スループットを 2 倍、電力効率を 50 % 向上させながらレイテンシ SLA を維持します。
この飛躍はハードウェアとソフトウェアの共同設計の重要性を示すものです。Gen 13 サーバは現在、Cloudflare のグローバルネットワーク全体で数百万リクエストを処理する準備が整いました。
もしグローバル規模でインフラに携わることに興味があるなら、採用中です。
Cloudflare の接続クラウドは企業ネットワークを保護し、ウェブアプリケーションを高速化し、DDoS 攻撃から守り、Zero‑Trust を実現します。
任意のデバイスから 1.1.1.1 にアクセスして、インターネットをより速く安全にする無料アプリをお試しください。ミッションやキャリアについてはウェブサイトをご覧ください。