Amazon の大規模データセンターで実現されたフラット型ネットワークアーキテクチャ

2026/06/09 12:39

Amazon の大規模データセンターで実現されたフラット型ネットワークアーキテクチャ

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

データセンター・アーキテクチャにおける最近の最も重要な変化は、数十年にわたるファットツリーや柔軟だが構造化された VL2 モデルといった厳格な階層構造から、意図的にランダム化されたトポロジーへ移行する Random Graph(RNG)設計の成功した採用です。1970 年代〜1990 年代の研究では、ランダムグラフは明示的に構築された最適設計とほぼ同等のパフォーマンスを発揮できることが示されており、1991 年の理論的確認および 2023 年の再確認がなされています。さらに 2012 年の Jellyfish コンセプトといった早期試みでも実用上の課題が残されていましたが、Penrose タイリングシミュレーションが不確実だと証明された後、2024 年の飛躍的な進展により複雑な構造は単純なランダム性(「ただランダムに!」「just be random!」)に置き換えられました。AWS の研究者らが Sprayingoint を라우ティング解決、ShuffleBox で配線問題を、RNG モデルで運用面の課題という残る 3 つのブロックを解消しました。その結果、RNG は明確な恩恵をもたらします:ルーター数を約 69% 削減、スループットを 33% 向上、ネットワーク電力消費を 40% 削減(これにより全体の運用コストも低下)し、2024 年中期にアイルランド・ダブリン周辺で初の RNG データセンターが立ち上げられました。さらに 2025 年にはドイツとスペインにも追加サイトが開設され、2026 年初頭には RNG が世界中の新たな Amazon データセンターにおけるデフォルト設計となっています。これにより、スループットとエネルギー効率において競争力を維持するため、業界他社も同様のランダム化アプローチへの導入を迫られる状況に置かれています。

本文

レジリエントネットワークグラフ(RNG)の起源と進化

背景:最適な経路と展開子(Expander Graphs)の研究の歴史

  • ルーツ:最適な経路を見つけるためのネットワーク研究は、1970 年代後半まで遡ります。数学者たちは「展開子(expander)」と呼ばれる特殊なネットワークを定義しました。
    • 強い連結性を有するグラフであり、頂点の任意のサブセットが他の部分から孤立することはないことを保証しています。
  • 理論的進展
    • 1976 年:レスリー・ヴァリアントは、これら展開子についての早期な議論を展開しました。アロン・ボーパナによる研究に基づき、最適構成法について言及されました。
    • 提案者の課題:ルボチスキー、フィリップス、サナークらが構成法を提案しましたが、これらは複雑で高度な数論を必要とし、特定のサイズと次数(degree)にのみ適用可能でした。
  • ランダムグラフの発見
    • 1991 年:フリードマンは、確率が高い場合、ランダムに配線されたネットワークが明示的な構成による最良の展開子とほぼ同等の性能を持つことを示しました。
    • 2023 年:数学的発見により、ランダムグラフがこの限界値に達することが確認されました。
    • 結論:最適なルーティング用ネットワークを望む場合、単にランダムに配線すればよいという事実に至りました。

ネットワーク業界の道筋:ファットツリーと VL2

  • 従来のアプローチ
    • 1980 年代中期以降、クロス結合網(Clos interconnects)に触発され、スイッチのレイヤーを持つファットツリートポロジーが構築されてきました。
    • クラウドコンピューティングの成長に伴い、規模拡大は益々高度化していきました。
  • VL2 の革新(2009 年)
    • アルバート・グリーンバーグらを筆頭とする研究チームにより、「VL2:スケーラブルで柔軟なデータセンターネットワーク」が発表されました。
    • 主な手法
      • 平坦なアドレス指定手法の導入。
      • **「ランダム化されたヴァリアント負荷平衡(Valiant Load Balancing)」**を採用し、トラフィックを一様に分散させることでパフォーマンスを向上させました。
    • 評価:2019 年に SIGCOMM の「タイムのテスト」賞を受賞。構造化されたトポロジーにおいても、経路のランダム化がパフォーマンス向上に寄与することが実証されました。
  • 残された課題:基盤となるネットワーク自体は依然として階層的で剛性的であり、ケーブル配線も複雑でした。

橋渡し:Jellyfish とその限界

  • 提案の経緯:2012 年、イリノイ大学の研究チームが「Jellyfish(ジャリーフィッシュ)」というランダムグラフとデータセンターネットワークを結びつける案を提唱しました。
  • 理論モデルの課題:単純な理論とシミュレーションに基づくため、以下のような難しい問題は未解決でした。
    • ルーティング:ランダムグラフ内でのルーティングは困難で、データの進む経路が多様化します。
    • 配線:端末ノードがランダムに選択されるため、配線と運用が予測不能です。
    • 実現性:大規模なランダムネットワークの構築、およびルーティング・配線・運用という 3 つの課題の解決が未達成でした。

RNG(レジリエントネットワークグラフ)の誕生と進化

歴史的背景

  • 調査の開始:2023 年、ジェコモ・ベルナルディとラトール・マハラジャンは、データセンタールーターを「ペノーズタイル」に従って平坦に配置できるか調査を開始しました。
  • 壁への直面:2024 年中頃、シミュレーションされたネットワークが信頼性が低く効率性に乏しいことが判明しました。結論として、構造をランダム性に取り替えると著しく優れた成果が得られることが分かりました(「ただ、ランダムにすればいい!」という Inside Joke に)。
  • 新モデルの必要性:アマゾン規模での平坦ネットワーク構築手法への言及が無かったため、新たなモデル開発が必要になりました。セシャドリー・コマンドゥーを含むチームが理論的なバックアップを提供し、以下の 3 つの障壁に挑みました。

技術的障壁の克服

チームは以下の 3 つの課題に対して具体的な解決策を開発しました。

  • ルーティングについて
    • グラフの展開性を活用し、ルーターメモリを過負荷にしない「Spraypoint」フォワーディングスキームを開発。トラフィックを効率的に分散させます。
  • 配線について
    • ShufleBox」という受動的な光学デバイスを開発。内部配線とランダム化された ShufleBox 同士の配線を組み合わせることで、「準ランダム(quasi-random)」なグラフを実現しました。
  • 運用について
    • ファットツリーで既に使われているルーターと光デバイスを活用し、抽象的なグラフを物理的な設置指示書および診断情報に変換するソフトウェアツールを構築。
    • デプロイ前に数学的にファブリックのパフォーマンスを検証・予測できるようにしました。

実装への決断(2024–2026)

  • 実装の命令:ネットワークエンジニアリング担当バイスプレジデントのマット・レヒダーは、「実際にデータセンターで提案された設計を構築してください」と挑戦を発令しました。
  • 第一段階(2024 年):少人数チームにより、アイルランドダブリン郊外に最初の RNG データセンターが建設されました。
  • 第二段階(2025 年~):実験から多くのことを学んだチームは、ネットワークを取り壊して設計を最適化し、新たに以下のデータを構築しました。
    • ドイツのデータセンター
    • スペインのデータセンター

顕著な成果(ファットツリーとの比較)

従来のファットツリーと比較して、RNG は以下のような大幅な改善を示しました。

  • ルーター使用数69% 削減
  • スループット33% 向上
  • ネットワーク消費電力40% 削減
  • 運用コスト27% 低減
  • 現状:2026 年初頭、RNG が世界中の新たに構築されるアマゾンのデータセンターにおけるデフォルト設計となりました。

RNG とファットツリーとの相対的優位性

項目RNG (レジリエントネットワークグラフ)ファットツリー
レジリエンス(耐障害性)ローターは同等重要。1% のローター損失に対し、容量も約1% で減少。劣化は比例して予測可能。誤ったスパインスイッチの損失が、不均衡な割合の容量ダウンを招く可能性がある。
効率性すべての経路が統計的に同等。容量は相互置換可能。特定のレイヤーにロックされた「未使用帯域幅」なし。階層構造により、特定レイヤーで帯域幅が浪費されることがある。
スケーラビリティ連続的拡張可能。ルーター追加だけでグラフが成長。トポロジー再設計不要。「容量の崖(cliff)」にぶつかることなく拡大。スイッチレディックスやレイヤー数によって固定サイズが決まる。再設計が必要

RNG の相対的限界(および緩和策)

  • 運用上の複雑さ
    • 課題:ランダムグラフ内の経路はツリー構造より予測しにくく、従来のツールでのトラブルシューティングが困難です(階層的構造がないため)。
    • 緩和策:専用診断ソフトウェアの構築。トラフィック分布と障害局在化への可視性を確保することで対応しています。
  • パフォーマンス保証
    • 課題:最悪-case のパフォーマンスは知られていますが、RNG は確率的な保証(高い確率で性能が良い)です。
    • 緩和策・認識:これは想像以上に弱い制約ではありません。大規模ネットワークでは故障も頻繁に発生するため、事実上ファットツリーでも確率的な保証となります。RNG はこの確率的性質を明示的にし、設計之初からこれに対応するように構築されています。

参考文献

参照論文

  • "VL2: A Scalable and Flexible Data Center Network"
    • 著者:Albert Greenberg, James R. Hamilton, Navendu Jain, Srikanth Kandula, Changhoon Kim, Parantap Lahiri, Dave A. Maltz, Parveen Patel, Sudipta Sengupta
    • 発表場:SIGCOMM 2009

同じ日のほかのニュース

一覧に戻る →

2026/06/10 1:58

クロード・フェブル 5

## 日本語訳: 以下の改善されたバージョンでは、欠落していた安全性の詳細、具体的な価格設定構造、データ保持ポリシー、および可用性のタイムラインを補いながら、明瞭性を維持しています: ## まとめ: Anthropic は、一般使用に安全であり、ソフトウェア工学、可視化解析、長期コンテキスト処理、科学的研究、およびメモリータスクにおいて従来のすべてのバージョンを超えた「Mythos クラス」のモデルである **Claude Fable 5** を導入しました。同モデルは直ちに API とサブスクリプションプラン(Pro から Enterprise まで)で利用でき、6 月 22 日まで利用可能です(6 月 23 日からは使用クレジットに移行)。価格は入力トークンあたり **10 ドル**、出力トークンあたり **50 ドル** で設定されており、Claude Mythos Preview など以前のプレミアムモデルよりも大幅に安価です。 Fable 5 は転換的な性能向上を提供し、以前は何ヶ月もかかった工学タスクを数日へと圧縮するとともに、薬剤設計を約 10 倍加速させます。安全性と有用性のバランスを取りつつ、Fable 5 におけるセンシティブなトピックに関するクエリについては、**Claude Opus 4.8** にフォールバックを行う設定となっており、これは保守的なチューニングによりセッションの **約 5% よりも少ない割合** で発生します。さらに、特定の分類器は生物学/化学分野での危険な研究の向上や悪意のあるハッキング試行をブロックします。また、Anthropic は Mythos クラスモデルに対して新しい **30 日間のデータ保持ポリシー** を実施し、このトラフィックを新モデルの訓練や安全性以外の目的で使用することを禁止しています。 一般向けの Fable 5 バージョンは依然として非常に安全ですが、未検閲バージョンである **Claude Mythos 5** は、15 カ国以上で選択されたサイバーセキュリティおよびインフラストラクチャパートナー(将来的には約 150 の新しい組織へ拡大)を独占的に対象とする **Project Glasswing** を通じて利用可能です。この戦略的動きは、責任ある使用基準を損なうことなく科学的発見を加速し、重要インフラのセキュリティを強化することを目的としています。プログラムには、将来、特定の生命科学研究者のために生物学/化学の safeguards を解除する計画も含まれています。

2026/06/10 6:01

NPM バージョン 12 で導入される予定のbreaking changes

## Japanese Translation: npm v12 開始(推定リリースは 2026 年 7 月)、`npm install` に対してより厳格なセキュリティデフォルトが適用されます。最も重要な変更は、自動スクリプト実行の無効化です(`allowScripts` がデフォルトでオフ)。明示的に承認されないと、preinstall、install、postinstall スクリプト(`node-gyp` を介するネイティブビルドを含む)がブロックされます。準備のためには、これらの変更を警告付きで利用可能な npm v11.16.0+(またはそれ以降)を使用してください:`npm approve-scripts --allow-scripts-pending` を実行し、信頼できるパッケージについては `npm approve-scripts` で明示的に承認し、他は `npm deny-scripts` で拒否します。結果となる許可リストは `package.json` に書き込まれコミットすべきであり、v12 へのアップグレード後は承認されたスクリプトのみが実行されます。 さらに、デフォルトでは `--allow-git`(npm 11.10.0+ で利用可能)は none に解決され、Git ベースの依存関係に対して明示的なフラグが必要となり、`.npmrc` オーバーライドを介した潜在的なコード実行経路を閉じます。同様に、`--allow-remote`(npm 11.15.0+ で利用可能)はリモート URL から依存関係を解決する場合にデフォルトで none に設定されます。`--allow-file` および `--allow-directory` は現在のデフォルトを維持します。保守担当者および CI/CD パイプラインは依存関係を検証し、`package.json` 内の許可リストを更新し、アップグレード前に変更をコミットする必要があります。そうでない場合、手動の例外を設定しない限りビルド失敗となります。詳細は npm ドキュメントの `npm approve-scripts`、`npm deny-scripts`、および `allow-scripts config` をご参照ください。

2026/06/10 4:21

FPGA を用いたKolmogorov-Arnold Networkによる超高速機械学習

## Japanese Translation: 本テキストは、Kolmogorov-Arnold Network(KAN)を Field-Programmable Gate Array(FPGA)上で展開し、超高速機械学習に特化して設計された革命的な新ハードウェアアーキテクチャを導入します。従来の GPU はスケジューリング遅延およびメモリオーバーヘッドによりマイクロ秒以下の応答時間を達成できず苦労しますが、この FPGA ベースのアプローチでは、ニューラルネットワークをリプログラミング可能なデジタルロジックと直接統合するため、アルゴリズムと設計のコデザインを採用しています。固定された重みではなく、B スプライン基底関数によって定義される学習可能なエッジアクティベーションに置き換えることで、伝統的なルックアップテーブルモデルに見られるような指数関数的スケーリングの問題を回避します。この手法は、定点符号化によるデータエンコーディングの簡素化を実現し、トレーニングの安定性を確保します。主な革新点は、「B スプラインの局所性」の利用であり、グリッドセルごとにアクティブとなる基底関数の数が限られているため、ネットワークの次数を増やすことなくグリッドサイズを拡大することでモデルを水平方向にスケール可能になります。得られる枠組みは「KANELÉ」と命名され、従来の実装に対する驚異的な 2,700 倍もの速度向上を達成し、オンデバイスでの動的モデル更新が可能となる真のオンライン学習を実現します。この画期的な成果は、量子コンピューティング制御システムなどリアルタイム意思決定が必要な産業に対し、高効率性と継続的改善を支援する GPU の代替として堅牢な選択肢を提供します。大規模テストにおいて、同システムは関数近似やキュビット読み出しなどのタスクで伝統的な MLP よりも優れたハードウェアスケーリングと収束性を示し、50,000 パラメータまで扱いながらマイクロ秒以下のレイテンシを維持しました。