デカップリングされたディロコ:大規模な分散 AI トレーニングにおける回復力
## Japanese Translation:
Google は、Decoupled DiLoCo(分散型低通信)という新たな大規模言語モデル(LLM)のトレーニング用アーキテクチャを発表しました。これは、帯域幅を削減しつつハードウェアの耐障害性を高めることで、遠隔データセンター間での LLM 訓練を実現します。本技術は、非同期データフロー(Pathways)および低帯域幅手法(DiLoCo)という過去の進歩に基盤をおき、従来の緊密な結合方式(サーバーが常に同様のチップと同期を行う必要があるもの)を置き換え、障害が発生した後に自己修復能力を持つ非同期な「計算の島」を導入しています。これらの「島」は学習ユニット内の局所的な障害を隔離するため、システム全体として中断なく学習を継続することが可能です。カオスエンジニアリングによるテストでは、ハードウェア障害後におけるオフライン化されたユニットのシームレスな再統合が確認されました。
Gemma モデルを用いたテストの結果、Decoupled DiLoCo は従来方式のトレーニングと同等の機械学習パフォーマンスを提供すると同時に、必要な通信をより長い計算期間に統合しバリアンซ์を回避するアプローチを採用することで、同期手法よりも 20 倍以上高速な結果を得ています。このシステムは、4 つの米国地域を用いてパラメータ数 120 億のモデルを訓練し、施設間の専用ネットワークインフラストラクチャを設置することなく、広域ネットワーキング帯域幅 2~5 Gbps のみで実現しました。また、異なる世代のハードウェア(例:TPU v6e と v5p)を単一の実行において混在させる生产レベルの完全に分散型事前学習も可能にし、既存インフラストラクチャの有効寿命を延ばすとともに、ハードウェアの段階的な利用開始によって生じる物流・容量面のボトルネックを軽減します。本作業は Google DeepMind と Google Research のチームによって実施され、Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Ayush Dubey, Blake Woodworth, Ionel Gog, Josef Dean, Nova Fallen, および Zachary Garrett が統括し、Nate Keating と Jenny Bishop が運用面での支援を提供しました。また、Jeff Dean, Marc'Aurelio Ranzato, Raia Hadsell, Arthur Szlam, Edouard Yvinec, Henry Prior, Paul Barham, Michael Isard, Daniel Ramage, Brendan McMahan, Chase Hensel, および Zoltan Egyed が助言を行いました。