
2026/03/16 1:01
**LLMアーキテクチャギャラリー**
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
(欠落している詳細を含む):
要約
この文書は最近の大規模言語モデル(LLM)のリリースを一覧化し、各モデルがサイズ・効率性・専門化のバランスをどのように取っているかを示しています。Llama 3 8B(GQA + RoPE, pre‑norm)や OLMo 2 7B(MHA + QK‑Norm, inside‑residual post‑norm)といった密なデコーダから、より大きく疎な Mixture‑of‑Experts (MoE) システムへと明確にシフトしていることがわかります。例として DeepSeek V3(総計 671 billion、アクティブ 37 billion; MLA attention, 密接頭辞+共有エキスパート)や Llama 4 Maverick(総計 400 billion、アクティブ 17 billion; 密なブロックと MoE ブロックを交互に配置し、大きめのエキスパートを採用)が挙げられます。
強調されている主な仕様は、総計対アクティブパラメータ数、デコーダーブロックタイプ、注意機構(GQA または QK‑Norm)、そして Qwen3 235B‑A22B の共有エキスパート除去や Nemotron 3 Nano 30B‑A3B のハイブリッド MoE アーキテクチャといったユニークな特徴です。データは、企業がレイテンシー、長文コンテキスト処理、多言語語彙、およびマルチモーダルサポートを最適化しながら推論コストを抑える方法を示しています。
今後のリリース—OLMo 3 32B、DeepSeek V3.2、Mistral 3 Large—は総パラメータ数の拡大と同時にアクティブ経路の縮小を通じて効率性向上を継続する傾向を示唆しています。Nemotron 3 Nano のような新興ハイブリッド MoE モデルは、注意機構なしのアーキテクチャへの実験を示唆しています。ユーザーや企業にとっては、低レイテンシーまたはメモリ使用量で稼働できるより高度なモデルへのアクセスが可能となり、長文推論、多言語チャットボット、ビジョン‑ランゲージタスクなどの専門的アプリケーションを実現しつつ運用コストを抑えることができます。
本文
モデルアーキテクチャ概要
| モデル | スケール | 発表日 | デコーダタイプ | アテンション | 重要ポイント |
|---|---|---|---|---|---|
| Llama 3 8B | 8 B パラメータ | 2024‑04‑18 | Dense | GQA with RoPE | Pre‑norm ベースライン。OLMo 2 と同程度の規模で幅が広い。 |
| OLMo 2 7B | 7 B パラメータ | 2024‑11‑25 | Dense | MHA with QK‑Norm | 通常の pre‑norm 配列ではなく inside‑residual post‑norm を採用。 |
| DeepSeek V3 | 合計671 B、アクティブ37 B | 2024‑12‑26 | Sparse MoE | MLA | Dense prefix + shared expert により、推論時に非常に大きなモデルを実現。 |
| DeepSeek R1 | 合計671 B、アクティブ37 B | 2025‑01‑20 | Sparse MoE | MLA | V3 と同一構成だが、推論指向のトレーニングレシピを採用。 |
| Gemma 3 27B | 27 B パラメータ | 2025‑03‑11 | Dense | GQA with QK‑Norm + 5:1 スライディングウィンドウ/グローバルアテンション | 高密度ローカルアテンションと大規模多言語語彙。 |
| Mistral Small 3.1 24B | 24 B パラメータ | 2025‑03‑18 | Dense | Standard GQA | レイテンシ最適化設計。Gemma 3 27B より KV キャッシュが小さく、レイヤー数も少ない。 |
| Llama 4 Maverick | 合計400 B、アクティブ17 B | 2025‑04‑05 | Sparse MoE | GQA | Dense ブロックと MoE ブロックを交互に配置。DeepSeek V3 より大きなエキスパートを使用。 |
| Qwen3 235B‑A22B | 合計235 B、アクティブ22 B | 2025‑04‑28 | Sparse MoE | GQA with QK‑Norm | 高容量 MoE をサービング効率に最適化。共有エキスパートは使用しない。 |
| Qwen3 32B | 32 B パラメータ | 2025‑04‑28 | Dense | GQA with QK‑Norm | 8 KV ヘッドを備えたリファレンス密集型 Qwen スタック。 |
| Qwen3 4B | 4 B パラメータ | 2025‑04‑28 | Dense | GQA with QK‑Norm | コンパクトな Qwen スタック、語彙は151k。 |
| Qwen3 8B | 8 B パラメータ | 2025‑04‑28 | Dense | GQA with QK‑Norm | 8 KV ヘッドを備えたリファレンス密集型 Qwen スタック。 |
| SmolLM3 3B | 3 B パラメータ | 2025‑06‑19 | Dense | GQA with periodic NoPE layers | 第4層ごとに RoPE を省略し、NoPE の周期性を検証。 |
| Kimi K2 | 合計1 T、アクティブ32 B | 2025‑07‑10 | Sparse MoE | MLA | DeepSeek V3 より多くのエキスパートと少ない MLA ヘッドを採用。 |
| GLM‑4.5 355B | 合計355 B、アクティブ32 B | 2025‑07‑28 | Sparse MoE | GQA with QK‑Norm | MoE ルーティング前に3層の Dense を配置し、共有エキスパートを維持。 |
| GPT‑OSS 120B | 120 B パラメータ | 2025‑08‑04 | Sparse MoE | GQA with alternating sliding‑window & global layers | OpenAI のオープンウェイト旗艦モデルを拡張。 |
| GPT‑OSS 20B | 合計20 B、アクティブ3.6 B | 2025‑08‑04 | Sparse MoE | GQA with alternating sliding‑window & global layers | Qwen3 より広く浅い設計。アテンションバイアスとシンク機構を含む。 |
| Grok 2.5 270B | 270 B パラメータ | 2025‑08‑22 | Sparse MoE | GQA | 常時オンの SwiGLU パスを追加し、共有エキスパートと同様に振る舞う。 |
| Qwen3 Next 80B‑A3B | 合計80 B、アクティブ3 B | 2025‑09‑09 | Sparse hybrid | 3:1 Gated DeltaNet & Gated Attention | より多くのエキスパートと共有エキスパートを備え、ネイティブ262k コンテキスト。 |
| MiniMax M2 230B | 合計230 B、アクティブ10 B | 2025‑10‑23 | Sparse MoE | GQA with QK‑Norm & partial RoPE | レイヤーごとに QK‑Norm を適用し、Qwen3 より疎い MoE ルーティングを採用。 |
| Kimi Linear 48B‑A3B | 合計48 B、アクティブ3 B | 2025‑10‑30 | Sparse hybrid | 3:1 Kimi Delta Attention & MLA | MLA 層で NoPE を使用し、長文効率のためにチャンネルワイズゲーティングを採用。 |
| OLMo 3 32B | 32 B パラメータ | 2025‑11‑20 | Dense | GQA with QK‑Norm + 3:1 sliding‑window/global attention | Post‑norm を保持し、幅を拡大、YaRN はグローバル層のみで適用。 |
| OLMo 3 7B | 7 B パラメータ | 2025‑11‑20 | Dense | MHA with QK‑Norm + 3:1 sliding‑window/global attention | Post‑norm を維持し、MHA を保ちつつ YaRN はグローバル層のみで適用。 |
| DeepSeek V3.2 | 合計671 B、アクティブ37 B | 2025‑12‑01 | Sparse MoE | MLA with DeepSeek Sparse Attention | 効率向上を重視した進化版更新。 |
| Mistral 3 Large | 合計673 B、アクティブ41 B | 2025‑12‑02 | Sparse MoE | MLA | DeepSeek V3 のほぼ複製。大きなエキスパートと少ないルーティングエキスパートを採用し、マルチモーダル対応。 |
| Nemotron 3 Nano 30B‑A3B | 合計30 B、アクティブ3 B | 2025‑12‑04 | Hybrid MoE | Mostly Mamba‑2 + few GQA layers | Mamba‑2 と MoE ブロックを交互に配置。注意は限定的に使用。 |
| Xiaomi MiMo‑V2‑Flash 309B | 合計309 B、アクティブ15 B | 2025‑12‑16 | Sparse MoE | 5:1 sliding‑window/global attention | 非常に小さな128トークンローカルウィンドウとマルチトークン予測を採用。 |
| GLM‑4.7 355B | 合計355 B、アクティブ32 B | 2025‑12‑22 | Sparse MoE | GQA with QK‑Norm | Pre‑MLA ベースライン。GLM‑4.5 と同じ32 B アクティブパスを維持。 |
| Arcee AI Trinity Large 400B | 合計400 B、アクティブ13 B | 2026‑01‑27 | Sparse MoE | GQA with gated attention + 3:1 sliding‑window/global attention | QK‑Norm, RoPE+NoPE, サンドイッチノーマル化、粗粒度 MoE を組み合わせた設計。 |
| GLM‑5 744B | 合計744 B、アクティブ40 B | 2026‑02‑11 | Sparse MoE | MLA with DeepSeek Sparse Attention | GLM‑4.7 より大きく、エキスパート数は多いが層数は少ない。 |
| Nemotron 3 Super 120B‑A12B | 合計120 B、アクティブ12 B | 2026‑03‑11 | Hybrid MoE | Mostly Mamba‑2 + few GQA layers | 潜在空間 MoE と共有重み MTP を追加し高速推論を実現。 |
| Step 3.5 Flash 196B | 合計196 B、アクティブ11 B | 2026‑02‑01 | Sparse MoE | GQA with 3:1 sliding‑window attention | トレーニングと推論で MTP‑3 を使用し高スループットを実現。 |
| Nanbeige 4.1 3B | 3 B パラメータ | 2026‑02‑10 | Dense | GQA | Llama ライクスタックだが、入力埋め込みと出力層の結合は行わない。 |
| MiniMax M2.5 230B | 合計230 B、アクティブ10 B | 2026‑02‑12 | Sparse MoE | GQA with QK‑Norm | スライディングウィンドウや線形注意ハイブリッドは使用せず、10 B のアクティブパスを維持。 |
| Tiny Aya 3.35B | 3.35 B パラメータ | 2026‑02‑13 | Dense | GQA with 3:1 sliding‑window attention | 注意と MLP を並列実行し、RoPE と NoPE を混在。 |
| Ling 2.5 1T | 合計1 T、アクティブ63 B | 2026‑02‑15 | Sparse hybrid | Lightning Attention + MLA | 7:1 線形注意/MLA 比率と大規模63 B アクティブパスを採用。 |
| Qwen3.5 397B | 合計397 B、アクティブ17 B | 2026‑02‑16 | Sparse hybrid | 3:1 Gated DeltaNet + Gated Attention | 以前の Qwen3‑Next 側分を新しいコア設計に転換。512 エキスパートと17 B アクティブ。 |
| Sarvam 105B | 合計105 B、アクティブなし | 2026‑03‑03 | Sparse MoE | MLA with KV LayerNorm, NoPE + RoPE | 大語彙とインド語への強力サポートを備えた MLA ベースのスパース MoE 配置。 |
| Sarvam 30B | 合計30 B、アクティブなし | 2026‑03‑03 | Sparse MoE | GQA with QK‑Norm | 推論指向のインド語スパース MoE。GQA を小規模に維持。 |
情報源
- 「The Big LLM Architecture Comparison」 – ディープおよび MoE、MLA、ハイブリッドデコーダファミリー全体を網羅したアーキテクチャ図と主要設計選択を解説するオリジナル比較記事。
- 「A Dream of Spring for Open‑Weight LLMs」 – 2026 年初頭に登場した MiniMax、Qwen、Ling、Sarvam といった新規オープンウェイトモデルのフォローアップ記事。