
2026/01/28 3:59
Arm製のCortex‑A725搭載、Dell Pro Max(GB10付き)
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
以下の改訂は、ソーステキストのすべての重要ポイントを取り込みつつ、裏付けされていない推測を避けています。
改訂された要約
Arm の Cortex‑A725 は 7 系列ラインナップへの最新追加であり、ピーク性能よりもハイブリッド big‑little システム向けに密度最適化コアとして設計されています。最大 2.8 GHz で動作し、5 ワイドのオーダーアウト・パイプラインを備え、再配置バッファは 224 エントリー(以前は 160)となっています。整数レジスタファイルはわずかに拡張され、FP/ベクトルリネーム容量は前世代コアよりやや減少しています。コアは Cortex‑A710 から継承されたブランチ予測器を保持しつつ、小型の BTB を使用します:L1 に 512 エントリー(単周期レイテンシ)と L2 に 8 192 エントリーです。16 エントリのリターンスタックが、以前の設計で使用されていた MOP キャッシュを置き換えます。
Nvidia の GB10 SoC では、十個の Cortex‑A725 コアが約 2.8 GHz で動作し、同じく十個のより高クロックの X925 コア(3.9–4 GHz)と並列します。各クラスターにはそれぞれ 5 個ずつのコアタイプが配置されており、一方のクラスターは 8 MB の L3 キャッシュ、もう一方は 16 MB の L3 キャッシュを備え、両者ともに DSU‑120 インターネットワークで 256 ビット読み書きパスを共有します。
実行リソースには、4 本の整数 ALU(各 20 エントリー・スケジューラ)、2 本の FP/ベクトルパイプライン(各 16 エントリー・スケジューラ)、3 本の AGU パイプ(同じく 16 エントリー・スケジューラ)が含まれます。L1 データキャッシュは 64 KB、4 ワイヤーセットアソシエーティブ、16 バンクで構成され、ロードレイテンシは 4 サイクルです;GB10 の L2 キャッシュは 512 KB、8 ワイヤー、9 サイクルのレイテンシを持ちます。L1D は VIPT インデックスと擬似 LRU 置換を採用し、L2 は L1D 内容を包含します。L1 DTLB は 48 エントリー(128 KB カバレッジ)で、命令 TLB は 32 エントリーに削減されています。
SPEC CPU2017 の結果では、A725 が 541.leela などのブランチ重視ワークロードで MISRIP を 6.61 % 削減し、浮動小数点性能はより強力な Neoverse N2 コアと同等です。周波数を正規化すると、A725 の IPC(コアベンディングワークロード)は X925 コアと一致します。
総じて、Arm は Cortex‑A725 で原始的速度よりも面積と電力効率を優先しています。この設計は、多くのコアが必要だが高い電力消費を望まない小型フォームファクタデバイス(モバイルやエッジアプリケーション)に適しており、Intel の Skymont や AMD の Zen スタイル コアと競合する密度クリティカルセグメントでのポジションを確立します。
本文
Armの7シリーズコア – Nvidia GB10 に搭載された Cortex A725
Arm の 7 系列コアは、同社のフラッグシップ性能ラインとして登場しました。
X 系列(パフォーマンス志向)が導入された後、これらは密度重視へとシフトし、Intel の E‑core と似た役割を担うようになりました。そのため、ハイブリッドコア構成では密度最適化済みコアを活用して、均一なビッグコア設計よりも低い電力・面積で高いマルチスレッド性能を実現できます。
Cortex A725 は最新の 7 系列コアで、Arm が「密度最適化」した強力なコアを求めて登場させたものです。
Arm は SoC メーカーに自社コアのライセンス利用を推奨し、自作よりも大きく+小さい組み合わせが Qualcomm のカスタムコアと競合でき、x86‑64 主導のノートパソコン市場への進出を促すことを期待しています。
GB10 – コア構成
- 10 × A725(2.8 GHz)
- 10 × X925(3.9–4 GHz)
- クラスタは二つ:1 つに 8 MB L3、もう 1 つに 16 MB
GB10 は A725 のコアアーキテクチャを可視化したものであり、実装選択が性能に影響します。
テスト環境
- Dell Pro Max ノートパソコンはテスト用に GB10 チップを 2 本供給。
- Linpack 負荷下ではシステムは静かで、優れた熱設計が確認できました。
コアアーキテクチャ
| 機能 | 詳細 |
|---|---|
| 実行エンジン | 5‑幅のアウト・オブ・オーダー。Intel Skylake や AMD Zen 2 と同程度の再配列容量を備える。 |
| インターコネクト | Arm の DynamIQ Shared Unit 120(DSU‑120)で、256‑bit の読み書きパスを持ち、共有 L3 キャッシュも内蔵。 |
| ブランチ予測器 | Cortex A710 と同等の性能。ブランチ重視ワークロードでも同程度に動作する。 |
| BTB | 512 エントリの L1 BTB。A710 の大きな BTB よりは遅い。 |
| リターンスタック | 16 エントリ、呼び出し+戻りで 2 サイクルのレイテンシ。 |
性能ハイライト
- SPEC CPU2017:ブランチ予測が優れたワークロード(例 541.leela)では強力。FP ワークロードでは Neoverse N2 と同等に比較できる。
- ブランチ予測:A725 の予測器は Skymont と同レベルで、非常に高い精度を実現。
フロントエンドとデコード
Arm は命令をマクロオペレーション(MOP)へ変換し、それをさらにミクロオペレーション(uOP)へ分割します。
-
A725 は MOP キャッシュを持たず、従来のフェッチ/デコード経路に依存。
- フェッチ/デコードは 1 サイクルあたり最大 5 MOP(≈6 命令)を供給可能。
- NOP ストリームが続く限り IPC は高いままで、TLB のスピルが発生すると下がる。
-
A710 は MOP キャッシュで 10 IPC に到達できるフュージョン命令ペアをサポートしていたが、A725 は隣接する NOP をフュージョンできないものの、CMP+ブランチなど他のフュージョンケースはサポート。
事前デコード方式
- A725 は 32‑ビット AArch64 命令ごとに 5 ビット「サイドバンド」事前デコードデータを持ち、有効なオペコードを示す。
- これは従来の中間形式(旧コアで使用)を置き換える。
レジスタリネーミングとムーブ除去
- ムーブ除去:ゼロ即値ムーブをゼロ化イディオムとして認識。すべてのリネーマー槽にわたるチェーン付き MOV は除去しない。
- メモリリネーミング:A725 では観測されず、Intel Ice Lake や AMD Zen 2 のような機能は見られない。
再配列とバッファサイズ
| 構造 | A710 | A725 |
|---|---|---|
| 再配列バッファ(ROB) | 160 エントリ | 224 エントリ |
| 整数レジスタファイル | — | より大きい |
| FP/ベクトルレジスタファイル | — | エントリが増え、128‑ビットのリネームは減少 |
| SVE パディクションレジスタ | — | やや削減 |
- A725 の大きな ROB は命令レベル並列性を向上させる一方で、関連構造もスケールアップが必要。
実行パイプライン
整数パイプ
- 4 本の整数パイプ;各々に 20 エントリのスケジューリングキューを供給。
- すべてのパイプは単一サイクル操作を処理可能(A710 はマルチサイクル制限あり)。
- AGU パイプはロード用に 2 本、ストアも同様に処理。
FP/ベクトルパイプ
- 双方向対称の FP/ベクトルパイプを 2 本;各々に 16 エントリのスケジューリングキュー。
- 非スケジューリングキューは約 23 エントリで共有。
アドレス生成
- AGU はトリプル構成で、各パイプに 16 エントリのスケジューリングキューを供給。
- 高速転送経路:依存するストア+ロードペアで 5 サイクルのレイテンシ。
キャッシュと TLB
| レベル | サイズ | アソシエーティビティ | 備考 |
|---|---|---|---|
| L1D | 64 KB | 4‑ウェイセットアソシエイティブ | 16 バンク;ロードレイテンシは 4 サイクル;VIPT;3 命令/サイクル |
| L2 | 512 KB(選択) | 8‑ウェイ | 2 バンク;9 サイクルレイテンシ |
| L1 TLB | データ 48 エントリ | フルアソシエイティブ | カバレッジ:192 KB |
| L2 TLB | 標準 1536 エントリ | 6‑ウェイ | L1 ハット時より 5 サイクルの追加レイテンシ |
- A725 の L2 は L1D を包括し、ピアコアの L2 ヒットは L1 より低いレイテンシを提供。
比較性能
- GB10 実装:クロック周波数が低いため、A725 の優位性は旧設計に比べ制限される。
- SPEC CPU2017 vs. Intel Crestmont(Meteor Lake):A725 は IPC が高いものの、一部ワークロードでは Crestmont や Skymont の高クロックが上回る。
- キャッシュミス集中ワークロード:A725 はコアプライベートキャッシュヒット率が高いため、競争力を維持。
まとめ
Cortex A725 は「密度最適化」設計に焦点を当てた結果として登場します:
- 大きな再配列バッファ、改善された整数パイプライン、洗練されたブランチ予測。
- MOP キャッシュの削除による簡素化デコードは、サイドバンド事前デコードで補われる。
- ベクトルリソースを若干削減しつつコア密度を重視。
GB10 上ではクロック低下がピーク性能に影響しますが、アーキテクチャ上の改良により多くのワークロードで競争力があります。特に高 IPC と強固なコアプライベートキャッシュパフォーマンスを活かせる場面です。Arm の高性能デバイスへの移行は、Intel Skymont や AMD Zen アーキテクチャと比べて「密度最適化」戦略がどれだけ有効であるかを試す絶好の機会となります。