デカップリングされたディロコ:大規模な分散 AI トレーニングにおける回復力

2026/04/28 1:57

デカップリングされたディロコ:大規模な分散 AI トレーニングにおける回復力

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Google は、Decoupled DiLoCo(分散型低通信)という新たな大規模言語モデル(LLM)のトレーニング用アーキテクチャを発表しました。これは、帯域幅を削減しつつハードウェアの耐障害性を高めることで、遠隔データセンター間での LLM 訓練を実現します。本技術は、非同期データフロー(Pathways)および低帯域幅手法(DiLoCo)という過去の進歩に基盤をおき、従来の緊密な結合方式(サーバーが常に同様のチップと同期を行う必要があるもの)を置き換え、障害が発生した後に自己修復能力を持つ非同期な「計算の島」を導入しています。これらの「島」は学習ユニット内の局所的な障害を隔離するため、システム全体として中断なく学習を継続することが可能です。カオスエンジニアリングによるテストでは、ハードウェア障害後におけるオフライン化されたユニットのシームレスな再統合が確認されました。

Gemma モデルを用いたテストの結果、Decoupled DiLoCo は従来方式のトレーニングと同等の機械学習パフォーマンスを提供すると同時に、必要な通信をより長い計算期間に統合しバリアンซ์を回避するアプローチを採用することで、同期手法よりも 20 倍以上高速な結果を得ています。このシステムは、4 つの米国地域を用いてパラメータ数 120 億のモデルを訓練し、施設間の専用ネットワークインフラストラクチャを設置することなく、広域ネットワーキング帯域幅 2~5 Gbps のみで実現しました。また、異なる世代のハードウェア(例:TPU v6e と v5p)を単一の実行において混在させる生产レベルの完全に分散型事前学習も可能にし、既存インフラストラクチャの有効寿命を延ばすとともに、ハードウェアの段階的な利用開始によって生じる物流・容量面のボトルネックを軽減します。本作業は Google DeepMind と Google Research のチームによって実施され、Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Ayush Dubey, Blake Woodworth, Ionel Gog, Josef Dean, Nova Fallen, および Zachary Garrett が統括し、Nate Keating と Jenny Bishop が運用面での支援を提供しました。また、Jeff Dean, Marc'Aurelio Ranzato, Raia Hadsell, Arthur Szlam, Edouard Yvinec, Henry Prior, Paul Barham, Michael Isard, Daniel Ramage, Brendan McMahan, Chase Hensel, および Zoltan Egyed が助言を行いました。

本文

弊社の新開発した分散アーキテクチャにより、遠隔に位置するデータセンター間において大規模言語モデル(LLM)の学習を、通信帯域幅を削減しつつかつハードウェアへの耐障害性を高めた環境下で行うことが可能になりました。従来の先鋭的な AI モデルの学習には、同型のチップがほぼ完全な同期を保ちながら密結合された大規模システムに依存していましたが、このアプローチは現状の世界最高水準のモデルに対して極めて効果的でした。しかし、未来 generations のスケール拡大において、数千個のチップにわたってこのような同期状態を維持することは、大きな運用上の課題となります。本稿では、この課題に対する新たなアプローチ、「Decoupled DiLoCo(分散型低通信:Distributed Low-Communication)」を発表いたします。同アーキテクチャでは、大規模な学習ジョブを非同期のデータフローによって接続された解像された「compute の島(islands)」に分割し、局所的な障害の影響を他のシステム領域から隔離することで、その他部分は引き続き効率的に学習を継続することができます。その結果、グローバルに分散したデータセンターを跨いで先進的なモデルを学習するための、より耐障害性が高く柔軟な手法が実現されます。とりわけ重要なのは、Decoupled DiLoCo は、以前の分散手法(例:Data-Parallel)において大規模化を不可能にしてきた通信遅延の課題を持たないことです。

先鋭的モデルがスケールと複雑性を増すにつれて、私たちはより多くの計算リソース、場所、および多様なハードウェアを活用したモデル学習のための多種多様なアプローチを探索しています。

図 1: 学習ジョブを個別の「compute の島(learner units)」に分離することで、同等レベルのハードウェア障害が発生しても、ほぼ途切れることなく学習を継続することが可能になります。これは、障害の影響が効果的に隔離されているためです。

スケールにおけるより耐故障性の高い非同期学習の開発

Decoupled DiLoCo は、2 つの prior の進歩に支えられています。一つは、非同期データフローに基づく分散 AI システムを開拓した「Pathways」であり、もう一つは遠隔データセンター間を介する通信に要求される帯域幅を劇的に削減し、遠隔場所間での大規模言語モデル学習を現実的なものにした「DiLoCo」です。Decoupled DiLoCo はこれらのアイデアを組み合わせて、スケールにおけるより柔軟な AI モデル学習を実現します。Pathways を基盤として構築された同システムは、compute の島(learner units として知られる)を超えた非同期学習を可能にし、ある領域におけるチップの故障が他の領域の学習進行に影響を与えることを防ぎます。このインフラストラクチャはさらに自己修復機能も兼ね備えています。試験では、「カオス工学」と呼ばれる手法を用いて学習実行中に人為的なハードウェア障害を導入しました。Decoupled DiLoCo は、learner units の全損失後も学習プロセスを継続し、それらが復旧時にシームレスに再統合されました。

図 2: 左:従来の学習手法と比較して、Decoupled DiLoCo アプローチは桁違いに少ない帯域幅を必要とし、非常に効率的です。中央:ハードウェア障害のレベルが上がるにつれて、Decoupled DiLoCo は高いレベルの「goodput」(実質的な学習成果)を維持し続けます。一方、他のアプローチでは performance が急激に低下します。(最初の 2 つのグラフはシミュレーションされた学習実行に基づいています)。右:現実世界の試験において、Decoupled DiLoCo を用いて学習された Gemma 4 モデルのベンチマーク ML パフォーマンスは、従来の学習手法で達成された性能と同等であることを示しました。

Decoupled DiLoCo を Gemma 4 モデルを用いた検証では、ハードウェア故障が発生した際、システムがより伝統的な学習手法よりも高い学習クラスターの可用性を維持しつつ、最終的には同等のベンチマーク ML パフォーマンスを実現することが確認されました。

Decoupled DiLoCo は障害への耐性が高くなるだけでなく、実運用レベルで完全に分散化された事前トレーニングを実行するためにも実用的です。私たちは、広域ネットワーク帯域幅 2〜5 Gbps(既存のデータセンター間のインターネット接続による比較的実現可能なレベルであり、施設間への新たな専用ネットワークインフラを必要としない)を利用して、4 つの別の米国地域にわたって 120 億パラメータを持つモデルの学習に成功しました。特筆すべきは、このシステムが従来の同期手法よりも 20 倍以上高速にトレーニング結果を達成したという点です。これは、通信を計算期間の中に統合し、「ブロッキング」的なボトルネック(すなわち、システムの一部の部分がある別の部分を待つ必要が生じる状況)を回避しているためです。

AI 学習インフラの進化を推進する

Google では、ハードウェア、ソフトウェアインフラ、そして研究にわたるフルスタックのアプローチで AI 学習に取り組んでいます。ますます、これらのレイヤーがどのように統合されているかの再考によって成果が得られるようになっています。Decoupled DiLoCo もその一例です。インターネットスケールの帯域幅でのトレーニングジョブを可能にすることで、利用されていない計算リソース(どこに存在しようとも)を活用でき、未利用のリソースを実際の容量へと転換します。

効率性や耐障害性だけでなく、この学習パラダイムは、異なる世代のハードウェア(例えば TPU v6e と TPU v5p)を単一のトレーニングジョブ内で混合して使用する能力も解放します。このアプローチは既存ハードウェアの有効寿命を延ばすのみならず、モデル学習のために利用可能な総計算量を増大させます。私たちの実験では、異なる速度で動作する複数世代のチップであっても、単一タイプのチップでのトレーニング実行と同等の ML パフォーマンスを実現し、古いハードウェアもまた AI 学習の加速に有意な貢献を果たせることを確認しました。さらに、新世代のハードウェアがすべて同時に各所に到達しないため、複数世代を超えて学習することが可能であれば、頻発する運用上のボトルネックや容量不足を緩和することができます。

今日、AI インフラのフロンティアを押し進める中で、次世代 AI を実現するために必要な耐障害性のあるシステムに関するアプローチの探求も継続して行っています。

謝辞

本稿の研究は、Google DeepMind と Google Research の複数のメンバーからなるチームによって行われました。Decoupled DiLoCo のリーダーおよびコア寄与者は、Arthur Douillard、Keith Rush、Yani Donchev、Zachary Charles、Ayush Dubey、Blake Woodworth、Ionel Gog、Josef Dean、Nova Fallen、Zachary Garrett 様です。運用面のサポートは、Nate Keating と Jenny Bishop 様によって行われました。

さらに、Jeff Dean、Marc'Aurelio Ranzato、Raia Hadsell、Arthur Szlam、Edouard Yvinec、Henry Prior、Paul Barham、Michael Isard、Daniel Ramage、Brendan McMahan、Chase Hensel、および Zoltan Egyed 様による追加的なサポートと助言にも心より感謝いたします。

同じ日のほかのニュース

一覧に戻る →

2026/04/28 6:26

NPM ウェブサイトがダウンしています。 (注:ご提示いただいたテキストは、元の改行・余白・記号なしの状態を維持したまま整理済みです。特定の状況(例:障害報告時の注意喚起など)を想定している場合は、以下のような形式もご参照ください。) **NPM ウェブサイトがアクセス不能になっています**

## Japanese Translation: 2026 年 4 月 27 日にウェブサイトの障害が解消されていないものの、npm エコシステムは機能上正常に動作し続けています。`www.npmjs.com` の利用ができなかった一方で、パッケージのインストール、公開、検索、セキュリティ監査、およびレプリケーションフィードといった重要なサービスは現在「Operational(運用中)」の状態です。過去 90 日間の稼働メトリクスは堅牢なパフォーマンスを示しており、ウェブサイト以外のサービスでは稼働率が 100%、ウェブサイトでは 99.92% であり、これは 4 月 13 日から 26 日の間にはインシデントが起きていなかった安定期と対照的です。本件は、これが軽微な不具合なのかより深く対応が必要なのかを調査しており、npm に依存している企業が主要なワークフローが影響を受けていないため自信を持って進めることができます。

2026/04/28 5:44

トロントでの逮捕:3人の男性が、SMS ブラスト関連の事件で容疑から 44 の起訴罪状に直面している

## Japanese Translation: 「Project Lighthouse」のもと、トロント警察は、RCMP およびその他の機関と連携し、SMS ブラスターを関与した画期的なサイバー犯罪の捜査を進めています。これは、カナダでこの特定の攻撃ベクトルの初例となります。捜査は 2025 年 11 月に、セキュリティパートナーがトロント市中心部で稼働していたデバイスの存在を当局に通報したことから開始されました。このモバイル脅威は数か月の間にグレート・トロント・エリアの複数の車両から実行され、1300 万件を超える接続を妨害し、端末を正当なネットワークから切断して、銀行クレデンシャルを奪おうと設計された偽サイトへと誘導しました。準副頭長の Rob Johnson 氏は、この攻撃が 9-1-1 などの緊急サービスに影響を与える恐れがあり、なりすましや盗難の重大なリスクをもたらすと警告しました。3 月 31 日、警察はマークハムとハミルトンで捜索令状を実行し、2 人の容疑者から複数のブラスターを没収した一方、3 目の容疑者は 4 月 21 日に自首しました。この 3 人は現在、44 の告訴に直面しています。当局は、カナダではこの技術が新しいものの、犯罪者の個人データを収集しようとする意図自体は古いものであると強調しています。

2026/04/28 2:45

Easyduino:KiCAD 用のオープンソース PCBA 開発ボード

## Japanese Translation: The Easyduino プロジェクトは、マイコン開発基板における歴史的な断片化に対処するため、Arduino(Uno/Nano)、ESP32/ESP32 S3、Raspberry Pi Pico、STM32 Bluepill といった一般的な MCU 向けにオープンソースかつ KiCad ベースの設計を提供する。Eagle や Altium といった地域固有のツールに依存していた以前のバージョンとは異なり、Easyduino は標準化された 4 レイヤ銅スタックアップ(JLC04161H-7628)を通じてプラットフォーム間でソフトウェア、言語、慣習を統一し、配線の簡素化を実現する。部品は市場での入手可能性とコストに適応され、例えばオリジナルの UNO の USB シリアル変換チップの代わりに ATmega16U2 を使用したり、高価な 01005 パッシブ部品を避けるなどの対応が取られている。各プロジェクトフォルダには、メインの KiCad ファイル、README、必要に応じて非標準フットプリントライブラリ、および BOM(JLCPB が読み取れる Centroid ファイルを含む)や主要部品のデータシート、Gerbers、PDF スケーマ/PCB、写真が含まれる ProductionFiles ディレクトリが用意されている。開発は KiCad v8.0.0 で行われ、更新とテストは KiCad v10 で実施された。Jobsets は生産データの生成を簡素化する。ユーザーは最新版の KiCad をインストールし、ZIP ファイルをダウンロードするか Git を経由してクローンし、変更を行う際は「git add」で全体を追加する必要があることに注意せよ(KiCad v10 の Git ツールには制限があるため)。すべてのボードは CERN Open Hardware Licence Version 2 – Permissive の下で公開されており、ライセンスのコピーを含めれば必須のソースコード開示なしに商用利用が可能である。今後の作業としては、v1.1 RP2040 および ESP32S3 ボードの注文とテストならびに nRF52840 および RP2350A ドングルを開発する予定がある。クレジットは、KiCad に関するヒントを提供し、地上から v1.1 RP2040 ボードを新規設計した winsrrow に贈られる。ハードウェアの作成を全球でよりアクセス可能で一貫性のあるものにするという使命を継続する。