GPU マルチプライ演算が「予測可能な」データを与えると高速化されることが判明(2024 年)

2026/05/23 21:11

GPU マルチプライ演算が「予測可能な」データを与えると高速化されることが判明(2024 年)

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

2022 年のベンチマークテストによる重要な発見は、GPU の性能指標が誤解を招きやすいことである。実世界での結果は、ハードウェアの raw スピードではなく、電力制限によって決定されるためだ。具体的には、CUDA ライブラリを比較したベンチマークにおいて、CUTLASS はデフォルトの整数初期化によるゼロ埋め行列が原因で約 10% の高いスループット(288 テラフロップス対 CuBLAS の 258)を示したが、CUTLASS を Python にバインドするか、ランダムな入力(

randn
)を即座に採用すると、性能は基準値(約 257 テラフロップス)と一致して低下し、データ分布が主要な変数であることを確認した。この現象の背後にある物理法則は、トランジスタが重要な「スイッチング」エネルギーを消費することだ。ゼロなど予測可能なパターンはトランジスタの反転を減少させ、電力消費を下げて GPU が約 400W の制限内でサーマルスロットリングを回避できる。対照的に、予測不能なランダム入力は急速なスロットリングを引き起こし、GPU をピーク FLOPS 仕様より искусственно低く保ち続けている。このダイナミクスは、なぜマーケティングの数字(例:H100 の 989 TFLOPS)が理論上の最大値であり、標準的な負荷下では稀に達成されるのかを説明している。Nvidia の MLPerf サブミッションからの証拠もこれをさらに検証し、L2 キャッシュからストリーミングマルチプロセッサへの電力再配分がエンドツーエンドの性能向上をもたらしたことを示した。今後の展望としては、B100 は H100 と同じエネルギー予算で 1.75 倍の理論的 FLOPS 増加を約束しているものの、業界の評価はトランジスタ数から現実的で予測不能なデータ負荷下での実際の性能への焦点を移す必要がある。不正確な評価を避けるためだ。

本文

テンソルコアのパフォーマンスと電力制約の驚くべき事実:CUTLASS ベンチマーク調査

1. プロジェクトの背景とベンチマーク結果

2022 年、高速度行列積を特徴とする新しいプロジェクト「CUTLASS」について検証を行いました。 まず、PyTorch を使用して

mm_bench.py
で CuBLAS の標準的な呼び出しを行い、8192 × 8192 × 8192 の大規模行列積に対して以下の結果を得ました。

  • CuBLAS: 258 トラスフロップ(フラップ利用効率 83%)

次に、CUTLASS のパフォーマンスをチェックするため、同社製のプロファイラを実行しました。

./cutlass_profiler --operation=Gemm --m=8192 --n=8192 --k=8192
  • CUTLASS: 288 トラスフロップ(約 10% のパフォーマンス向上)

CuBLAS は大規模計算に対し最適化されていますが、自動チューニングを組み合わせた CUTLASS がそれよりもさらに上回る結果を示しました。これは驚異的な性能向上です。

2. Python でのバインドとデータ分布の影響

CUTLASS の核関数を Python にバインドし、CuBLAS と比較するスクリプトを実行した際の結果は以下の通りでした。

  • CuBLAS: 258 トラスフロップ
  • CUTLASS: 257 トラスフロップ

Python 環境下ではパフォーマンス向上が消失しました。ベンチマーク設定の一貫性を確保するのは notoriously(極めて困難)な課題ですが、それでもこの差は明確でした。

詳細な調査の結果、CUTLASS のプロファイラがデフォルトで入力データを「整数のみ」で初期化していたことが問題の所在であることに気づきました。入力をどのように設定するかが性能に与える影響を実験しました。

zero_inputs = torch.zeros(N, N)
randn_inputs = torch.randn(N, N)
benchmark(zero_inputs)   # 295 トラスフロップ
benchmark(randn_inputs)  # 257 トラスフロップ

通常、行列積の計算時間や性能は「行列の中身」とは無関係に決まると考えられています。しかし、以下の条件を満たす場合でも結果が異なるという事実は、直感的ではありませんでした:

  1. 同じ数の計算を実行
  2. 同じ順序で同じ計算を実行
  3. 同じメモリアドレスをアクセス
  4. 同じ順序でメモリアドレスをアクセスする

「行列内の値が行列積のパフォーマンスに影響を与える」という要素は、GPU ハードウェアのモデルには存在しませんでしたが、これが事実であることに気づきました。その正体は、半導体におけるダイナミック/スイッチング電力でした。

3. 電力消費とパフォーマンスの関係性

Nvidia の A100 GPU は理論上 400W の電力制限を持ちますが、実際に消費する電力はクロック周波数やトランジスタの動作状況によります。

電力制限とスロットリング

  • アイドル状態時:
    nvidia-smi
    で約 88W
  • 負荷下時:通常、電力制限付近まで達し、ピーク出力を出す
  • 制限超過時:VRM(電圧調整モジュール)が電圧を下げてクロック周波数を抑制し、性能を制限(スロットリング)する

電力消費の仕組みは以下の 2 つに分けられます:

タイプ説明
静的/リーク電力電源供給されたシリコン量に比例。本質的にアイドル時の電力(例:88W)。回路を通る損失分。
ダイナミック/スイッチング電力トランジスタの状態が切り替わるたびに消費。トランジスタ反転回数が多いほど電力が増加

データ分布による性能差の正体

ゼロ行列(予測可能な入力)は、チップ内のトランジスタ反転回数を抑え、電力制限内での動作を可能にするため高速です。逆に、正規分布のようなランダムな値を含む入力は、多数のトランジスタを高頻度で切り替えさせ、消費電力を増やし、結果としてスロットリングにより性能が低下します。

各種データ分布でのベンチマーク

データ分布特徴パフォーマンス傾向
Zeros全ての値が 0最速(累積器もゼロ、反転なし)
Ones全ての値が 1非常に高速(同一値の生成、変化なし)
Rand一様分布
[0, 1]
正規分布よりわずかに速い
Randn正規分布最も遅い(ランダム性が高くトランジスタ切り替え多数)
Checkerboardチェス盤模様に 0 を配置若干の最適化効果
Sparseランダム要素の 75% をマスクスパース性は非効率ではないという意外な事実
Ternary値が 1, -1, 0 のみ-
One Bit4 番目のビットのみセット-
All Pies全ての値が π-
Twos全ての値が 2-

4. パラメータ調整による検証実験

電力制限(Power Cap)の影響

使用電力は

クロック速度 × トランジスタ反転数
に比例します。電力制限を下げると、以下の現象が発生します。

  • 予測可能な入力(ゼロ): 効果が大きく増幅される
  • 予測不可能な入力(randn): そのままの性能を維持できる(相対的に悪化)
  • 極限の場合(100W など): 傾向が逆転する可能性がある(電力不足によるボトルネック)

クロック速度の影響

電力制限を固定し、GPU のクロック速度上限を変更すると以下の結果が得られました。

  • 高クロック時: 予測可能な入力も依然としてスロットリングされているため、差は小さい
  • 中クロック時: 予測可能な入力は影響を受けますが、予測不可能な入力は変わらず、ギャップが縮小
  • 低クロック時: 両者の性能が完全に一致(電力スロットリングが発生せず、手動設定のクロック制限に達する)

5. 実用上の意味と H100 の性能について

Nvidia が公表している FLOPS の計算式は以下の通りです:

$$ \text{FLOPS} = \text{テンソルコア数} \cdot \text{最大クロック速度} \cdot \text{命令あたりの FLOP 数} $$

例として H100:

  • テンソルコア数:528 個
  • 最大クロック:1.830 GHz
  • FLOP/指令:1024
  • 理論値:989 トラスフロップ

しかし、これは「十分な電力」で動作している前提です。 実際の環境では、特に H100 の場合、以下のことが問題となります。

  • 電力制約: 最大持続可能クロックは理論値よりも著しく低い。
  • ボトルネック: 行列積は計算量や帯域幅ではなく、電力によって制限されている。
  • 実測性能: H100 は A100 の 3 倍の理論 FLOPS を持つが、スロットリングの影響により「実際の」パフォーマンスは約 2 倍しか伸びない。
  • 効率性: 「ワットあたりのフロップ数」も低下する傾向がある。

MLPerf の提出結果から、L2 キャッシュから SM への電力割り当てによってエンドツーエンドのパフォーマンスが改善された事例も確認されており、仮説が概ね支持されました。今後の B100(H100 と同等の電力だが理論値 1.75 倍の FLOPS)における実測性能向上にも注目が集まります。

注意: CUTLASS プロファイラでの FLOPS 数を確認する際は、他のベンチマークと比較できるように

scale
パラメータを適切に設定してください。

同じ日のほかのニュース

一覧に戻る →

2026/05/28 5:00

YouTube が AI 生成動画を自動でラベル付け

## Japanese Translation: 2026 年 5 月現在、YouTube は視聴者に対する AI 生成コンテンツに関する即座の明確化を確保するため、AI デイスクロージャーシステムを大幅に見直しています。最も重要な更新は、フォトリアリスティックまたは意味のある変改が行われたメディアについては動画プレーヤーの直下にラベルを顕著に表示し、Shorts では説明にのみ埋め込むのではなく、オーバーレイでラベルを表示することです。非現実的、アニメーション、または軽微な変更が加えられたコンテンツについては、開示は引き続き拡張された説明に維持されます。この統合的なラベルリング基準は、2024 年以降増大するコミュニティの透明性への要請に応えるため、すべての此类の重大な AI 生成または変更されたメディアに適用されます。 特に重要なのは、AI ツールの使用がクリエイター収益化能力やプラットフォーム上の推奨受容に影響を与えることのないことです。具体的には、開示ラベルは動画の推奨か収益化資格への影響を及ぼしません。本ポリシーは、Veo や Dream Screen といった YouTube 自前のツールで作成されたコンテンツと、C2PA メタデータでマークされたサードパーティ製素材を区別しており、これら両方とも恒久的な開示ラベルが付与されます。以前クリエイターは自主的な開示に依存していましたが、現在は重大な AI 機能の検出がある場合でも明示的なフラグがなくても自動的に行き来されることがデフォルトとなっています。今後、YouTube は内部シグナルを利用して AI マテリアルを自動的に特定し、純粋な自主的モデルから移行します。クリエイターは、作業が誤ってフラグされた場合に YouTube Studio 内でエラーを修正する権利を維持します。最終的に、この転換は業界全体の透明性を推進すると同時に、生成技術を利用する革新者に対する罰則を伴いません。

2026/05/28 1:39

Anthropic と OpenAI が商品と市場の適合性を発見したと思います

## Japanese Translation: AI 市場における主要な戦略転換として、Anthropic や OpenAI のような先導的なプロバイダーが、重いサブスクリプション割引から標準 API プライシングモデルへ移行しており、補助されたアクセス時代が終わりを告げました。この変化は、コーディングエージェントに対する製品市場適合の実現、ならびにそれらを維持するために現在必要な大規模なインフラコストによって駆動され、2025 年後半に正式化され、2026 年頭で完全に実現されました。Anthropic はエンタープライズプランを席数 20 ドルに加えての使用量モデルへ移行し、OpenAI も GPT-5.5 のリリース後、すべてのプランをトークン使用量との直接連携に合わせました。この財務的実態が鋭い企業の反応を引き起こしました:Uber は Claude Code そのものだけで年間 AI 予算を「上限」に達させ、Microsoft は内部的ツールの優先のために Anthropic ライセンスの取消を allegedly(とされ)行っています。一方、需要は依然として堅くあり、SpaceX は 2029 年までコンピューティング容量に対して月間 12.5 億ドルコミットしています。アナリストらは現在、Anthropic が 2026 年第 2 四半期に初めて利益のある四半期を迎え、API 収益が 109 億ドルに達すると予測しており、2025 年後半の楽観視から、エンタープライズグレード AI インフラを維持する高コストの実態へと根本的な調整を示しています。

2026/05/28 4:24

Apple と Google がプッシュ通知に注力する取り組みとは

## Japanese Translation: 主要なテクノロジー企業(具体的には Google、Yahoo、Microsoft、Apple)は、プッシュ通知を単なる配信チャネルから、プラットフォームがメッセージを受信する前に解析し、順位付けし、変更を加え、ユーザーに到達させるまで積極的に管理する環境へと本質的に変革させてきた。この変化により、「通知パイプ」は厳密に制御された空間へと転換しており、現在では Apple(APNs)と Google(FCM/Firebase)によって支配されており、送信側は厳しいフィルタリング、不透明な編集、そしてスロットリングや優先度低下による拒否の可能性に直面している。2009 年から 2017 年までは静脈的であったが、Android 8 の通知チャンネルと iOS のフォーカスモード導入を機にこの介入の時代が始まり、許可率を 85% から 67% に大幅に引き下げる影響をもたらした。現在では、Apple の 30 億パラメータ規模のモデルや Google の Gemini Nano といった固有モデルに基づき内容を再書き換えしたり、未発表のランキングロジックで順位付けを行ったりする独自メカニズムによって、従来のダウンストリーム指標がメッセージの抑制や改変を隠蔽するため信頼できなくなっている。その結果、開発者はクロスセルや教育コンテンツのためにプッシュ通知に依存し続けることができず、代わりにそのようなインタラクションをメトリクスが完全に可視化される自社所有の_Surface_(例:アプリ内インボックス)へと移行させる必要がある。このトレンドは、準拠しない送信者に対する「ゼロ・トレランス」ポリシーの拡大と、通知から直接自動タスクを発火させる AI エージェントの登場へと向かっており、メッセージを受動的なアラートではなく制御シグナルへと本質的に変えていく。

GPU マルチプライ演算が「予測可能な」データを与えると高速化されることが判明(2024 年) | そっか~ニュース