第 8 世代 TPU：エージェント時代の到来に向けて、2 チップ搭載で設計されました。

Japanese Translation:

Google は、DeepMind と共同で設計された AI 開発における重要な進歩を意味する第 8 世代の Tensor プロセシングユニット（TPU）——トレーニング向けの TPU 8t と推論向けの TPU 8i——を Google Cloud Next にて発表し準備を進めています。TPU 8t は、スーパーポッド当たり 9,600 チップという大規模構成において 121 エクサフロップスの性能を提供し、境界モデルの開発サイクルを数ヶ月から数週間に短縮することを目的としています。TPU 8i は低遅延推論向けに最適化されており、効率的な ARM ベースの CPU、高帯域幅メモリ、およびインターコネクト帯域幅を倍増させると同時にネットワークダイアミータを半減する新アーキテクチャを採用しています。これにより前世代と比較してコストあたりの性能は 80% 向上しています。両チップはどちらも Google 独自の Axion CPU ホストおよび第 4 世代液体冷却技術を用いた構造になっており、既存モデルに比べて最大 2 倍のエネルギー効率を実現するとともに、JAX、PyTorch、MaxText などの人気のあるオープンソースフレームワークを対応しています。これら 2 つは Google の AI ハイパコンピューター内で複雑な推論モデルを処理するための統一されたスタックを構成し、企業に対してコストを維持した上で顧客ボリュームを 2 倍に拡大できる上級のスケーラビリティと効率性を提供します。

Google テンソルプロセッサユニット（TPU）第 8 世代：TPU v8p と TPU v4e の概要と技術仕様

導入

10 年以上にわたる開発の集大成として、次世代スーパーコンピューティングを効率性とスケーラビリティで支えるための専用チップ「TPU v8p」と「TPU v4e」が発表されました。Google Cloud Next シリーズイベントにて正式披露された両製品は、異なるアーキテクチャを持つ目的設計のデバイスです。これらは Google が独自開発した超計算機の動力源となり、最先端 AI モデルのトレーニングから大規模な推論ワークロードまでを駆動します。TPU はこれまでの Gemini をはじめとする主要な基礎モデルの開発を支えてきました。この第 8 世代は、トレーニング、サービング（実機稼働）、そして AI エージェントワークロード全体においてスケール性、効率性、そして性能を提供します。

現在のアグリメントでは、モデルが問題を解決するための論理推論を実行し、多段階のワークフローを完遂し、自らの行動から学習する継続的なループの中で動作する必要があります。これによりインフラストラクチャに対して新たな要件が生じます。TPU v8p と TPU v4e は Google DeepMind と連携して設計されており、最も過酷な AI ワークロードに対応するとともに、進化し続けるモデルアーキテクチャへの適合性を確保しています。

TPU はカスタム数値演算、液体冷却方式、独自インターコネクトなど、ML スーパーコンピューティングの多くの分野で業界標準を確立してきました。第 8 世代 TPU は 10 年以上の開発を象徴する製品です。元々の TPU デザインの核心となる洞察、すなわち「ハードウェア、ネットワーク、ソフトウェア（モデルアーキテクチャやアプリケーション要件を含む）を統合し、システム全体を一体化させて設計すること」によって圧倒的な電力効率と絶対的性能を実現できるという点は、今日に至っても維持されています。

両チップによる対応：開発サイクルの短縮

ハードウェアの開発サイクルはソフトウェアよりも長くなります。各世代の市場投入時において存在する技術や需要を考慮する必要があります。数年前に確立された戦略によれば、 frontier AI モデルが実用環境および大規模に展開されるに伴い推論に対する要求が高まることが予想され、また AI エージェントの台頭によりコミュニティ全体に利益をもたらすため、トレーニングとサービング（実行）のニーズに対して個別に最適化されたチップが必要となることを決定しました。

TPU v8p：トレーニングのパワーハウス

TPU v8p は大規模で計算集約的なトレーニングワークロードにおいて卓越した性能を発揮する、高い計算スループットと広大なスケールアップ帯域幅を備えた設計です。

開発サイクルの短縮: frontier モデルの開発サイクルを数ヶ月から数週間にまで短縮します。可能な限り高い計算スループット、共有メモリ容量、チップ間帯域幅を維持しつつ、最高の電力効率と生産的な計算時間をバランスさせることで設計されています。これにより、前の世代に比べて約 3 倍の計算性能をポッド単位で提供し、顧客が業界をリードし続けるためのスピードを確保します。
大規模化: シングル TPU v8p スーパークラスタにおいて 9,600 チップおよび 2 ペタバイトの共有高帯域幅メモリにスケーリング可能です。前世代に対して 2 倍のチップ間帯域幅を備えています。このアーキテクチャは 121 ExaFlops の計算能力を提供し、最も複雑なモデルも単一の巨大なプールメモリを活用することを可能にします。
最大効率化: ストレージへのアクセス速度が 10 倍高速化したことに加え、TPUDirect を活用してデータを直接 TPU に読み込むことで、エンドツーエンドのシステム全体の利用率を最大化します。
ニア・リニアなスケーリング: 新しい Virgo ネットワークと JAX、Pathways ソフトウェアの組み合わせにより、TPU v8p は単一の論理的クラスタ内で最大 100 万チップまでニア・リニアなスケーリングを提供します。
高出力効率 (Goodput): RAS（信頼性、可用性、サービス可能性）機能の一貫したセットにより、平均「goodput」（有効な生産的な計算時間）を 97% 以上に目標としています。これには、数万のチップ全体でのリアルタイムテレメトリー、故障したインターコネクト（ICI）リンクを検出してジョブを中断せずに経路を再設定する自動機能、そして人間の操作なしでハードウェアの故障部分を取り囲む領域を再構成するオプタカルスイッチ (OCS) が含まれます。

TPU v4e：推論エンジンの進化

AI エージェント時代において、ユーザーは質問に対して答えを得たり、タスクを委任して結果を受け取ることを期待しています。TPU v4e は多数の AI エージェントによる複雑で協力的な反復的な業務、しばしば「スワーム」と呼ばれるような複雑なフローの中で解答と洞察を提供するために設計されています。スタックを再設計し、「待合室効果（モデル待ち時間）」を取り除くための 4 つの主要なイノベーションを導入しました。

メモリの壁を突破: プロセッサがアイドル状態になるのを防ぐため、TPU v4e はモデルの有効ワーキングセット全体をオンチップに保つように設計されており、288 GB の高帯域幅メモリと 384 MB のオンチップ SRAM をペアリングしています（前世代に対して 3 倍）。
Axion CPU による効率化: サーバーあたりの物理 CPU ホスト数を増やすことでカスタム Axion ARM ベースの CPU に移行しました。孤立化を防ぐための非均一メモリアーキテクチャ (NUMA) を活用することで、全システムを最適化し優れた性能を実現しています。
MoE モデルのスケーリング: 現代の Mixture of Experts (MoE) モデルに向け、インターコネクト (ICI) の帯域幅を 19.2 Tb/s に倍増させました。新しい Boardfly アーキテクチャにより、最大ネットワークダイアメータを 50% 以上減少させ、システムを低遅延の単一連合体として動作させています。
ラグの排除: 新しいオンチップ Collectives Acceleration Engine (CAE) がグローバルな演算をオフロードし、オンチップ遅延を最大 5 倍削減することでレイテンシーを最小化します。

これらのイノベーションにより、前世代と比較してパフォーマンス対コストは 80% 向上し、同コストでほぼ 2 倍の顧客ボリュームをサービスできる能力を獲得しました。

Gemini と共同設計され、すべてのユーザー向け

この第 8 世代 TPU は、AI の最大の課題を解決するために仕様すべてが最適化されている、私たちの「コデザイン（共設計）」哲学の最新表現です。

Boardfly トポロジー: 今日の最も能力のある推論モデルの通信要件に特化した設計です。
SRAM カパシティ: 実稼働規模での推論モデルの KV キャッシュフットプリントに合わせて調整されています。
Virgo ネットワークファブリック: 兆パラメータ単位のトレーニングにおけるパラレリズム要件から帯域幅目標を導出しています。
Axion CPU ホスト: 初めて両チップとも Google の独自 Axion ARM ベースの CPU ホスト上で動作し、チップ単体だけでなくシステム全体を最適化できます。

次世代インフラストラクチャのための効率性

現在の日産能力において、チップ供給ではなく電力が制約要因となっています。これを解決するため、リアルタイム需要に基づいて電力使用量を動的に調整する統合された電力管理など、スタック全体での効率性を最適化しました。TPU v8p と TPU v4e は、Ironwood よりも最大 2 倍のパフォーマンス対ワット比を実現します。

システムレベルのコミットメント: Google における効率はチップレベルだけでなく、シリコンからデータセンターまで走るシステム全体のコミットメントです。例えば、計算とネットワーク接続を同じチップに統合することで、TPU ポッド内のデータを移動させる際の電力コストを大幅に削減しています。
液体冷却の活用: データセンターは TPUs と共設計されています。ハードウェアとソフトウェアを通じてイノベーションを起こし、5 年前よりも単位電気量当たり 6 倍の計算能力を提供できるようになりました。TPU v8p と TPU v4e もその軌道に乗り続け、両方とも空気冷却では持続不可能なパフォーマンス密度を支える第 4 世代液体冷却技術をサポートしています。
フルスタック所有: Axion ホストからアクセラレータまでを自社で管理することで、ホストとチップが個別に設計されることは避けられず、システムレベルのエネルギー効率を最適化できます。

エージェント時代のためのインフラ

すべての主要な計算のパラダイムシフトはインフラの画期的な進展を必要としてきました。エージェントコンピューティング時代も同様です。自律的なエージェントが論理推論、計画立案、実行、学習の継続的なループの中で動作する必要があるため、インフラ自体も進化し続ける必要があります。

TPU v8p と TPU v4e はこの課題への解答です。可能なこと自体を再定義するために設計された 2 つの特別アーキテクチャです。AI モデルの構築からエージェント群の完璧なオーケストレーション、そして最も複雑な推論タスクの管理までをカバーします。両チップは今年後半に一般利用が可能になり、計算（コンピューティング）、ストレージ、ネットワークといった目的設計されたハードウェア、オープンソースソフトウェア（フレームワーク、推論エンジン）、柔軟な消費（オーケストレーション、クラスター管理、提供モデル）を単一スタックとして統合する「Google Cloud AI ハイパースーパーコンピュータ」の一部として使用できます。

エージェントコンピューティングの可能性を再定義します。この変革を推進している最新の incarnations を発表しました。興味のあるお客様には詳細情報を提供いたします。