第 8 世代 TPU:エージェント時代の到来に向けて、2 チップ搭載で設計されました。

2026/04/22 21:15

第 8 世代 TPU:エージェント時代の到来に向けて、2 チップ搭載で設計されました。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Google は、DeepMind と共同で設計された AI 開発における重要な進歩を意味する第 8 世代の Tensor プロセシングユニット(TPU)——トレーニング向けの TPU 8t と推論向けの TPU 8i——を Google Cloud Next にて発表し準備を進めています。TPU 8t は、スーパーポッド当たり 9,600 チップという大規模構成において 121 エクサフロップスの性能を提供し、境界モデルの開発サイクルを数ヶ月から数週間に短縮することを目的としています。TPU 8i は低遅延推論向けに最適化されており、効率的な ARM ベースの CPU、高帯域幅メモリ、およびインターコネクト帯域幅を倍増させると同時にネットワークダイアミータを半減する新アーキテクチャを採用しています。これにより前世代と比較してコストあたりの性能は 80% 向上しています。両チップはどちらも Google 独自の Axion CPU ホストおよび第 4 世代液体冷却技術を用いた構造になっており、既存モデルに比べて最大 2 倍のエネルギー効率を実現するとともに、JAX、PyTorch、MaxText などの人気のあるオープンソースフレームワークを対応しています。これら 2 つは Google の AI ハイパコンピューター内で複雑な推論モデルを処理するための統一されたスタックを構成し、企業に対してコストを維持した上で顧客ボリュームを 2 倍に拡大できる上級のスケーラビリティと効率性を提供します。

本文

Google テンソルプロセッサユニット(TPU)第 8 世代:TPU v8p と TPU v4e の概要と技術仕様

導入

10 年以上にわたる開発の集大成として、次世代スーパーコンピューティングを効率性とスケーラビリティで支えるための専用チップ「TPU v8p」と「TPU v4e」が発表されました。Google Cloud Next シリーズイベントにて正式披露された両製品は、異なるアーキテクチャを持つ目的設計のデバイスです。これらは Google が独自開発した超計算機の動力源となり、最先端 AI モデルのトレーニングから大規模な推論ワークロードまでを駆動します。TPU はこれまでの Gemini をはじめとする主要な基礎モデルの開発を支えてきました。この第 8 世代は、トレーニング、サービング(実機稼働)、そして AI エージェントワークロード全体においてスケール性、効率性、そして性能を提供します。

現在のアグリメントでは、モデルが問題を解決するための論理推論を実行し、多段階のワークフローを完遂し、自らの行動から学習する継続的なループの中で動作する必要があります。これによりインフラストラクチャに対して新たな要件が生じます。TPU v8p と TPU v4e は Google DeepMind と連携して設計されており、最も過酷な AI ワークロードに対応するとともに、進化し続けるモデルアーキテクチャへの適合性を確保しています。

TPU はカスタム数値演算、液体冷却方式、独自インターコネクトなど、ML スーパーコンピューティングの多くの分野で業界標準を確立してきました。第 8 世代 TPU は 10 年以上の開発を象徴する製品です。元々の TPU デザインの核心となる洞察、すなわち「ハードウェア、ネットワーク、ソフトウェア(モデルアーキテクチャやアプリケーション要件を含む)を統合し、システム全体を一体化させて設計すること」によって圧倒的な電力効率と絶対的性能を実現できるという点は、今日に至っても維持されています。


両チップによる対応:開発サイクルの短縮

ハードウェアの開発サイクルはソフトウェアよりも長くなります。各世代の市場投入時において存在する技術や需要を考慮する必要があります。数年前に確立された戦略によれば、 frontier AI モデルが実用環境および大規模に展開されるに伴い推論に対する要求が高まることが予想され、また AI エージェントの台頭によりコミュニティ全体に利益をもたらすため、トレーニングとサービング(実行)のニーズに対して個別に最適化されたチップが必要となることを決定しました。

TPU v8p:トレーニングのパワーハウス

TPU v8p は大規模で計算集約的なトレーニングワークロードにおいて卓越した性能を発揮する、高い計算スループットと広大なスケールアップ帯域幅を備えた設計です。

  • 開発サイクルの短縮: frontier モデルの開発サイクルを数ヶ月から数週間にまで短縮します。可能な限り高い計算スループット、共有メモリ容量、チップ間帯域幅を維持しつつ、最高の電力効率と生産的な計算時間をバランスさせることで設計されています。これにより、前の世代に比べて約 3 倍の計算性能をポッド単位で提供し、顧客が業界をリードし続けるためのスピードを確保します。
  • 大規模化: シングル TPU v8p スーパークラスタにおいて 9,600 チップおよび 2 ペタバイトの共有高帯域幅メモリにスケーリング可能です。前世代に対して 2 倍のチップ間帯域幅を備えています。このアーキテクチャは 121 ExaFlops の計算能力を提供し、最も複雑なモデルも単一の巨大なプールメモリを活用することを可能にします。
  • 最大効率化: ストレージへのアクセス速度が 10 倍高速化したことに加え、TPUDirect を活用してデータを直接 TPU に読み込むことで、エンドツーエンドのシステム全体の利用率を最大化します。
  • ニア・リニアなスケーリング: 新しい Virgo ネットワークと JAX、Pathways ソフトウェアの組み合わせにより、TPU v8p は単一の論理的クラスタ内で最大 100 万チップまでニア・リニアなスケーリングを提供します。
  • 高出力効率 (Goodput): RAS(信頼性、可用性、サービス可能性)機能の一貫したセットにより、平均「goodput」(有効な生産的な計算時間)を 97% 以上に目標としています。これには、数万のチップ全体でのリアルタイムテレメトリー、故障したインターコネクト(ICI)リンクを検出してジョブを中断せずに経路を再設定する自動機能、そして人間の操作なしでハードウェアの故障部分を取り囲む領域を再構成するオプタカルスイッチ (OCS) が含まれます。

TPU v4e:推論エンジンの進化

AI エージェント時代において、ユーザーは質問に対して答えを得たり、タスクを委任して結果を受け取ることを期待しています。TPU v4e は多数の AI エージェントによる複雑で協力的な反復的な業務、しばしば「スワーム」と呼ばれるような複雑なフローの中で解答と洞察を提供するために設計されています。スタックを再設計し、「待合室効果(モデル待ち時間)」を取り除くための 4 つの主要なイノベーションを導入しました。

  • メモリの壁を突破: プロセッサがアイドル状態になるのを防ぐため、TPU v4e はモデルの有効ワーキングセット全体をオンチップに保つように設計されており、288 GB の高帯域幅メモリと 384 MB のオンチップ SRAM をペアリングしています(前世代に対して 3 倍)。
  • Axion CPU による効率化: サーバーあたりの物理 CPU ホスト数を増やすことでカスタム Axion ARM ベースの CPU に移行しました。孤立化を防ぐための非均一メモリアーキテクチャ (NUMA) を活用することで、全システムを最適化し優れた性能を実現しています。
  • MoE モデルのスケーリング: 現代の Mixture of Experts (MoE) モデルに向け、インターコネクト (ICI) の帯域幅を 19.2 Tb/s に倍増させました。新しい Boardfly アーキテクチャにより、最大ネットワークダイアメータを 50% 以上減少させ、システムを低遅延の単一連合体として動作させています。
  • ラグの排除: 新しいオンチップ Collectives Acceleration Engine (CAE) がグローバルな演算をオフロードし、オンチップ遅延を最大 5 倍削減することでレイテンシーを最小化します。

これらのイノベーションにより、前世代と比較してパフォーマンス対コストは 80% 向上し、同コストでほぼ 2 倍の顧客ボリュームをサービスできる能力を獲得しました。


Gemini と共同設計され、すべてのユーザー向け

この第 8 世代 TPU は、AI の最大の課題を解決するために仕様すべてが最適化されている、私たちの「コデザイン(共設計)」哲学の最新表現です。

  • Boardfly トポロジー: 今日の最も能力のある推論モデルの通信要件に特化した設計です。
  • SRAM カパシティ: 実稼働規模での推論モデルの KV キャッシュフットプリントに合わせて調整されています。
  • Virgo ネットワークファブリック: 兆パラメータ単位のトレーニングにおけるパラレリズム要件から帯域幅目標を導出しています。
  • Axion CPU ホスト: 初めて両チップとも Google の独自 Axion ARM ベースの CPU ホスト上で動作し、チップ単体だけでなくシステム全体を最適化できます。

次世代インフラストラクチャのための効率性

現在の日産能力において、チップ供給ではなく電力が制約要因となっています。これを解決するため、リアルタイム需要に基づいて電力使用量を動的に調整する統合された電力管理など、スタック全体での効率性を最適化しました。TPU v8p と TPU v4e は、Ironwood よりも最大 2 倍のパフォーマンス対ワット比を実現します。

  • システムレベルのコミットメント: Google における効率はチップレベルだけでなく、シリコンからデータセンターまで走るシステム全体のコミットメントです。例えば、計算とネットワーク接続を同じチップに統合することで、TPU ポッド内のデータを移動させる際の電力コストを大幅に削減しています。
  • 液体冷却の活用: データセンターは TPUs と共設計されています。ハードウェアとソフトウェアを通じてイノベーションを起こし、5 年前よりも単位電気量当たり 6 倍の計算能力を提供できるようになりました。TPU v8p と TPU v4e もその軌道に乗り続け、両方とも空気冷却では持続不可能なパフォーマンス密度を支える第 4 世代液体冷却技術をサポートしています。
  • フルスタック所有: Axion ホストからアクセラレータまでを自社で管理することで、ホストとチップが個別に設計されることは避けられず、システムレベルのエネルギー効率を最適化できます。

エージェント時代のためのインフラ

すべての主要な計算のパラダイムシフトはインフラの画期的な進展を必要としてきました。エージェントコンピューティング時代も同様です。自律的なエージェントが論理推論、計画立案、実行、学習の継続的なループの中で動作する必要があるため、インフラ自体も進化し続ける必要があります。

TPU v8p と TPU v4e はこの課題への解答です。可能なこと自体を再定義するために設計された 2 つの特別アーキテクチャです。AI モデルの構築からエージェント群の完璧なオーケストレーション、そして最も複雑な推論タスクの管理までをカバーします。両チップは今年後半に一般利用が可能になり、計算(コンピューティング)、ストレージ、ネットワークといった目的設計されたハードウェア、オープンソースソフトウェア(フレームワーク、推論エンジン)、柔軟な消費(オーケストレーション、クラスター管理、提供モデル)を単一スタックとして統合する「Google Cloud AI ハイパースーパーコンピュータ」の一部として使用できます。

エージェントコンピューティングの可能性を再定義します。この変革を推進している最新の incarnations を発表しました。興味のあるお客様には詳細情報を提供いたします。

同じ日のほかのニュース

一覧に戻る →

2026/04/23 5:27

Apple、警察による iPhone の消去されたチャットメッセージの抽出を可能にしていたバグの修正を提供。

## Japanese 翻訳: Apple は緊急に重要なソフトウェア更新をリリースし、iOS 18 およびそれ以前のバージョンを実行する iPhone と iPad(すべてを含む)で、Signal や WhatsApp のような暗号化アプリから削除されたメッセージを法執行機関のフォレンジックツールが抽出できるという深刻なセキュリティ欠陥を修正しました。この脆弱性は、ユーザーがメッセージを削除してもデバイス上で最大 1 ヶ月間キャッシュとして保持され、削除されない通知データが原因でした。これにより、「セットして忘れましょう」という設計思想を持つ危険人物向け自動削除タイマーにもかかわらず、法執行機関(FBI を含む)は押収されたデバイス上の私的チャットを再構築することができました。この問題は Signal 社長メレディス・ホイッターによって確認され、当初は404 Mediaによって開示されました。問題の核心は、削除対象としてマークされた通知が予期せずにデバイス上に保持されたことです。OS 全体のアップグレードを必要とせず、即時のリスクを軽減するために、Apple は該当デバイスに修正をバックポートし、不可欠なプライバシー保護を回復するとともに、将来的なフォレンジック攻撃を防ぐためにモバイルセキュリティプロトコルにおけるより厳格なデータキャッシュ管理の必要性を強調しました。

2026/04/23 2:35

私たちが発見したのは、あなたのすべてのプライベートな Tor アカウントを相互に結びつける安定した Firefox の識別子です。

## 日本語訳: 元のサマリーは優れている—it は簡潔で明瞭であり、主要ポイントリストからのすべての主要ポイントを余計な冗談抜きに捉えている。 ## サマリー: Firefox ベースのブラウザには、プライバシー上重大な欠陥があり、ウェブサイトがプライベートモードであってもユーザーを一意に追跡できるようになっています。この問題は、`IndexedDB`(ブラウザの保存システム)がデータをどのように順序付けるかという仕組みから生じており、これは永続的な「指紋」を作り出します。この順序付けはブラウザを完全に再起動するまで安定するため、異なるウェブサイトにおいて同様のパターンを観測し、従来のクッキーを使用せずにユーザーのウェブサイトの活動同士をつなげることを可能とします。この脆弱性は、セッションデータを閉じた後で消えるかリセットすると期待して匿名性を維持するためにユーザーが依存している Tor の「新しいアイデンティティ」機能のようなプライバシー保護措置を効果的に回避します。 この欠陥がすべての Firefox 派生版で共有される `Gecko` エンジンに存在することに気づいた Mozilla は、最近のバージョン向けの緊急修正をリリースしました。解決策はデータベースリストの表示方法を標準化し、追跡を可能とした内部の保存パターンを取り除きます。その結果、ユーザーはこれらの指紋を完全にクリアするためにブラウザを再起動する必要があります。それまでの間、プライベートブラウジングモードの信頼性が損なわれ、無関係なウェブサイトがユーザーの一貫したクロスサイト行動を識別できないという根本的な信頼が破られます。

2026/04/20 0:19

微小画面向けの 5 ピクセル×5 ピクセルのフォント。

## Japanese Translation: 最も重要な示唆は、AVR128DA28 などのリソース制約の厳しい 8 ビットマイクロコントローラ向けに最適化された、非常に効率的で手作業によるフォント設計にあります。lcamtuf の `5x6 font-inline.h` に基づき、ZX Spectrum のスタイルに触発されたこのアプローチは、ベクトルフォント(メガバイト規模のデータを必要とするため)が失敗したり、限られた RAM を備えたデバイス上で文字列長の計算時に整数溢れ問題を引き起こしたりする記憶制約を解決します。このフォントは合計 350 バイトで完結しており、標準的な 128x64 OLED などコンパクトなディスプレイに適合します。主要な設計判断はグリッド寸法に集中しており、5x5 グリッドが "E" や"M"や"W"のような個別の文字を損なうことなく完全な可読性を維持するための最小サイズであることが特定されました。一方、より小さなグリッドではフォント数の大幅な減少と可読性の低下を引き起こし(例:3x5 に落とすと特定の形状が失われ、3x3 未満では文字セットが単純なコードに縮小されます)。この定幅形式はプログラミングを簡素化し、画面内の文字列長が予測可能(文字数の 6 倍)になります。これにより、厳格にストレージ制限を受けたハードウェア上でもファームウェアは軽量かつ信頼性が保たれます。プロジェクトのソースには、2026 年 4 月に開発された `mcufont.h` および`test.c` と関連するピクセルアートフォントリポジトリが含まれています。