CUDA-l2: Surpassing cuBLAS performance for matrix multiplication through RL

2025/12/05 6:04

CUDA-l2: Surpassing cuBLAS performance for matrix multiplication through RL

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

改善された概要

CUDA‑L2 は、NVIDIA A100 GPU 上で大規模言語モデルの半精度(16ビット)行列乗算カーネルを約1,000 (M,N,K)構成にわたる強化学習で自動調整する新しいライブラリです。PyTorch の組み込み

matmul
、cuBLAS、cuBLASLt‑heuristic、および cuBLASLt‑AutoTuning を上回り、単一の A100 カードにおいて測定可能な速度向上を実現します。これにより LLM ワークロードの推論スループットとコストが改善されます。

主な詳細:

  • 2025年12月2日にリリース。A100 用に最適化されたカーネルで、16ビット積算器を使用します。
  • 今後のリリースでは 32ビット積算バリアントが追加され、Ada Lovelace、Hopper、および Blackwell GPU へのサポートも拡張予定です。
  • 速度向上は A100 にみることが確認されています。RTX 3090 や H100 の結果については保証できませんが、発生する可能性があります。他のハードウェア用カーネルは段階的にリリースされます。
  • 1,000 構成セットに含まれない行列サイズの場合は、最も近い大きな構成へゼロパディングを行うか、GitHub のイシューでカスタムカーネルを要求してください。

前提条件と設定:

  • PyTorch 2.6.0 以降がインストールされた Python 環境。
  • CUTLASS v4.2.1 をクローン (
    git clone -b v4.2.1 https://github.com/NVIDIA/cutlass.git cutlass
    )。
  • CUTLASS_DIR=/path/to/cutlass
    TORCH_CUDA_ARCH_LIST="8.0"
    (A100/Ampere 用)を設定。

評価:

eval_one_file.sh
を実行し、
--mnk
--warmup_seconds
--benchmark_seconds
--base_dir
--gpu_device_id
--mode
およびオプションの
--target_qps
などの引数を指定します。

サポート: GitHub のイシューやメール(jiwei_li@deep-reinforce.com)で質問またはカスタムカーネルリクエストを提出してください。

本文

CUDA‑L2:強化学習でマトリクス乗算のcuBLAS性能を超える


イントロダクション

CUDA‑L2 は大型言語モデル(LLM)と強化学習(RL)を用いて、Half‑precision General Matrix Multiply (HGEMM) CUDA カーネルを自動最適化します。A100 上で 1 000 個の

(M,N,K)
設定に対し、
torch.matmul
、cuBLAS、cuBLASLt‑heuristic、cuBLASLt‑AutoTuning のいずれよりも一貫して高速です。

スピードアップ結果

  • A100 上で 1 000 個の設定を対象に、CUDA‑L2 は
    torch.matmul
    / cuBLAS / cuBLASLt‑heuristic / cuBLASLt‑AutoTuning を上回る(添付チャート参照)。

新機能

  • 2025年12月02日:A100 用 HGEMM カーネルを 1 000 個の設定に最適化してリリース。

次のタスク

  • A100 向け 32‑ビット累積器付き HGEMM (
    SM80_16x8x16_F16F16F16F32
    F32F16F16F32
    ) を公開。
  • より密度の高い行列設定(エントリ数増加)をサポート。
  • Ada Lovelace、Hopper、Blackwell など他 GPU へ拡張。
  • オープンソース LLM 用にデプロイを簡素化。

FAQ

Q: A100 カーネルは RTX 3090 や H100 でも動作しますか?
A: A100 用に訓練されたカーネルはそのアーキテクチャ向けに最適化されています。他の GPU 上で実行できる場合もありますが、スピードアップは保証されません。各 GPU ファミリー用に段階的にカーネルをリリースします。

Q: 私の行列サイズ (M,N,K) が設定リストにありません。
A:

  1. もっと大きい近似設定を選び、ゼロでパディングします。
  2. GitHub Issue に寸法を報告すると、要望があればカーネルを追加します。

インストール & セットアップ

1. 前提条件

  • Python – どの環境でも可。
  • PyTorch – バージョン ≥ 2.6.0。

2. CUTLASS のクローン

CUDA‑L2 は NVIDIA CUTLASS に依存します。タグ

v4.2.1
cutlass
フォルダにクローンしてください:

git clone -b v4.2.1 https://github.com/NVIDIA/cutlass.git cutlass

⚠️ 注意
正しい CUTLASS バージョン (

v4.2.1
) を使用し、
CUTLASS_DIR
を正しく設定してください。そうでないとビルドが静かに失敗します。

3. 環境変数

ビルドまたは実行前に:

export CUTLASS_DIR=/path/to/your/cutlass
export TORCH_CUDA_ARCH_LIST="8.0"   # 例:A100 / RTX 30 系列なら "8.0"

利用方法

評価スクリプト

eval_one_file.sh
を実行します。

オフラインモード(バッチ処理)

./eval_one_file.sh \
  --mnk 64_4096_64 \
  --warmup_seconds 5 \
  --benchmark_seconds 10 \
  --base_dir ./results \
  --gpu_device_id 7 \
  --mode offline

サーバーモード(リクエストベースシミュレーション)

./eval_one_file.sh \
  --mnk 64_4096_64 \
  --warmup_seconds 5 \
  --benchmark_seconds 10 \
  --base_dir ./results \
  --gpu_device_id 7 \
  --mode server \
  --target_qps 100

引数リファレンス

引数説明
--mnk
問題サイズ(例:
64_4096_64
)。
--warmup_seconds
タイミング前のウォームアップ時間。
--benchmark_seconds
ベンチマーク実行時間。
--base_dir
コンパイル・出力結果を保存するディレクトリ。
--gpu_device_id
GPU ID(例:
7
)。
--mode
実行モード:
offline
または
server
--target_qps
--mode server
時に必須;目標クエリ/秒。

お問い合わせ

ご質問がある場合は GitHub Issue を開くか、jiwei_li@deep-reinforce.com までメールしてください。

同じ日のほかのニュース

一覧に戻る →

2025/12/05 10:05

BMW PHEV: Safety fuse replacement is extremely expensive

## Japanese Translation: --- ## 要約 BMW の高電圧バッテリー安全ヒューズ(1件あたり約 €5 000)は、iBMUCP モジュール全体(約 €1 100+税)を交換する必要があります。iBMUCP は溶接で閉じられ、暗号的にロックされており、サービス前後に車両全体のフラッシュが必須です。ISTA で承認された手順を試みると、盗難防止ロックを作動させてモジュールを消去し、新しいバッテリーパック(約 €6 000+VAT)が必要になるリスクがあります。 BMW は公式 ISTA 診断へのアクセスをブロックし、オーストリアでのワークショップ認定要求を却下しているため、独立した修理はさらに困難です。対照的に、テスラのプロファイザー/ BMS リセットは €11–€50 だけです。 21F2A8 や 21F35B といったエラーコードは高電圧安全問題を示しています。OEM サービスは €4 000+税と見積もられ、iBMUCP の交換作業には通常 24–50 時間がかかり、ツール費用は €25 000 を超えます(ICOM、IMIB、AOS)。 著者のチームは iBMUCP 内にある Infineon TC375 MCU 上の JTAG/DAP 保護を突破する計画です。成功すれば回復が簡素化され、作業時間とツール費用が削減され、不必要なバッテリー交換が減り、自動車修理における CO₂ 排出量も低減します。 この作業を提供しているサービスセンターは、ザグレブ、ベルリン、スロベニア、およびセルビア(EV CLINIC)に所在しています。

2025/12/05 9:03

Trick users and bypass warnings – Modern SVG Clickjacking attacks

## Japanese Translation: ## Summary 本論文は、すべてのSVG `<fe*>` フィルタプリミティブをチェーン化することでチューリング完全なツールセットを構築できることを示し、高度なクリックジャッキングやクロスオリジンデータ外部流出攻撃を可能にします。 - 著者はまず、`feColorMatrix` と `feDisplacementMap` を用いて CSS/SVG で Apple の Liquid Glass 効果を再現し、クロスオリジン iframe 上でも動作することを証明しました。 - プリミティブ(切り取り・タイル化・算術合成・カラー行列変換・ガウシアンぼかし)を組み合わせて、外国オリジンから画像データを読み取るピクセル読取回路を構築しました。 - `feBlend` と `feComposite` を用いて NOT, AND, OR, XOR, NAND, NOR, XNOR の論理ゲートを実装し、SVG フィルタ内で任意のブール演算が可能になりました。 - これらのゲートを利用して、ダイアログ表示状態・読み込み状態・チェックボックス状態・赤文字検出に応じて画像を条件付きで表示するマルチステップクリックジャッキングシナリオ(「Securify」)を構築しました。 - この手法は Google Docs に適用され、攻撃者が「Generate Document」→ CAPTCHA 入力 → 提案選択 → ボタン押下 → 読み込み画面という一連の操作を SVG フィルタ内で自動化します。 - SVG フィルタ内(`feDisplacementMap` と Reed–Solomon エラー訂正表を使用)に QR コードジェネレータを構築し、生成されたコードは外部流出データをエンコードしており、ユーザーにスキャンさせて攻撃者のサーバへ送信されます。 クリックハイジャックや SVG フィルタタイミング攻撃に関する既存研究では、マルチステップロジックとクロスオリジンデータ読取を組み合わせたものはなく、本論文は新規かつ自動化された攻撃ベクターを提示しています。 調査結果は、攻撃者が他のウェブサービスに対して同様のシーケンスを自動化し、マルウェアやフィッシングキャンペーンに埋め込む可能性があることを示唆しています。ユーザーは意図しないクリックとデータ漏洩のリスクにさらされ、サードパーティ iframe を組み込む企業は侵害リスクが高まります。本研究は、ウェブエコシステム全体で SVG フィルタ使用時のオリジン境界保護を強化する必要性を訴えています。

2025/12/05 10:15

NeurIPS 2025 Best Paper Awards

## Japanese Translation: > **概要:** > 本会議の論文賞授与式では、プログラムチェアとデータベース&ベンチマークトラックチェアが指名した委員会により選ばれた優秀な7件の論文が表彰されました。最終承認は総合チェア、新世代チェア、およびアクセシビリティチェアから行われました。賞には、Datasets & Benchmarkトラックから1件を含む4件のベストペーパーと3件のレナーアップが含まれます。 > > *ベストペーパー*: > 1. **「Artificial Hivemind: The Open‑Ended Homogeneity of Language Models」** – Infinity‑Chat(26 Kクエリ、31 K人間アノテーション)とオープンエンドプロンプトの分類法を紹介し、モデル内部での反復とモデル間での均質性を明らかにします。 > 2. **「Gated Attention for Large Language Models」** – SDPA後にヘッド特異的シグモイドゲートを追加すると性能・安定性が向上し、密結合およびMoEトランスフォーマーの注意サンク問題を緩和することを示します。コードはGitHub/HuggingFaceで公開されています。 > 3. **「1000 Layer Networks for Self‑Supervised RL」** – 1024層という深さが目標条件付きタスクで性能を向上させ、他のベースラインを上回ることを実証します。 > 4. **「Why Diffusion Models Don’t Memorize」** – 2つの時間スケール(初期一般化と後期記憶)を特定し、暗黙的な動的正則化が過学習を防ぐことを示します。 > > *レナーアップ*: > - 「Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?」 – RLVRはサンプリング効率を改善するものの、推論能力を拡張しない;蒸留により新たなパターンが導入される可能性があります。 > - 「Optimal Mistake Bounds for Transductive Online Learning」 – Ω(√d) の下限と O(√d) の上限を証明し、以前の結果を指数関数的に改善し、転移学習と標準オンライン学習との間に二次的ギャップがあることを示します。 > - 「Superposition Yields Robust Neural Scaling」 – 表現の重ね合わせがニューラルスケーリング法則を駆動することを示し、強い重ね合わせは多様な周波数分布にわたってモデル次元に逆比例して損失を縮小します。 > > これらの賞は拡散理論、自律学習RL、LLMの注意メカニズム、LLMにおける推論、オンライン学習理論、ニューラルスケーリング法則、および言語モデル多様性のベンチマーク手法を網羅しています。これらは会議が実証的ブレイクスルーと理論的洞察の両方にコミットしていることを示しています。 > > この改訂版概要は、Key Points List のすべての主要ポイントを忠実に列挙し、裏付けのない推測を避け、読み手に優しい明確なオーバービューを提供します。