**LLMアーキテクチャギャラリー**

2026/03/16 1:01

**LLMアーキテクチャギャラリー**

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

(欠落している詳細を含む):


要約

この文書は最近の大規模言語モデル(LLM)のリリースを一覧化し、各モデルがサイズ・効率性・専門化のバランスをどのように取っているかを示しています。Llama 3 8B(GQA + RoPE, pre‑norm)や OLMo 2 7B(MHA + QK‑Norm, inside‑residual post‑norm)といった密なデコーダから、より大きく疎な Mixture‑of‑Experts (MoE) システムへと明確にシフトしていることがわかります。例として DeepSeek V3(総計 671 billion、アクティブ 37 billion; MLA attention, 密接頭辞+共有エキスパート)や Llama 4 Maverick(総計 400 billion、アクティブ 17 billion; 密なブロックと MoE ブロックを交互に配置し、大きめのエキスパートを採用)が挙げられます。

強調されている主な仕様は、総計対アクティブパラメータ数、デコーダーブロックタイプ、注意機構(GQA または QK‑Norm)、そして Qwen3 235B‑A22B の共有エキスパート除去や Nemotron 3 Nano 30B‑A3B のハイブリッド MoE アーキテクチャといったユニークな特徴です。データは、企業がレイテンシー、長文コンテキスト処理、多言語語彙、およびマルチモーダルサポートを最適化しながら推論コストを抑える方法を示しています。

今後のリリース—OLMo 3 32BDeepSeek V3.2Mistral 3 Large—は総パラメータ数の拡大と同時にアクティブ経路の縮小を通じて効率性向上を継続する傾向を示唆しています。Nemotron 3 Nano のような新興ハイブリッド MoE モデルは、注意機構なしのアーキテクチャへの実験を示唆しています。ユーザーや企業にとっては、低レイテンシーまたはメモリ使用量で稼働できるより高度なモデルへのアクセスが可能となり、長文推論、多言語チャットボット、ビジョン‑ランゲージタスクなどの専門的アプリケーションを実現しつつ運用コストを抑えることができます。


本文

モデルアーキテクチャ概要

モデルスケール発表日デコーダタイプアテンション重要ポイント
Llama 3 8B8 B パラメータ2024‑04‑18DenseGQA with RoPEPre‑norm ベースライン。O​​LMo 2 と同程度の規模で幅が広い。
OLMo 2 7B7 B パラメータ2024‑11‑25DenseMHA with QK‑Norm通常の pre‑norm 配列ではなく inside‑residual post‑norm を採用。
DeepSeek V3合計671 B、アクティブ37 B2024‑12‑26Sparse MoEMLADense prefix + shared expert により、推論時に非常に大きなモデルを実現。
DeepSeek R1合計671 B、アクティブ37 B2025‑01‑20Sparse MoEMLAV3 と同一構成だが、推論指向のトレーニングレシピを採用。
Gemma 3 27B27 B パラメータ2025‑03‑11DenseGQA with QK‑Norm + 5:1 スライディングウィンドウ/グローバルアテンション高密度ローカルアテンションと大規模多言語語彙。
Mistral Small 3.1 24B24 B パラメータ2025‑03‑18DenseStandard GQAレイテンシ最適化設計。Gemma 3 27B より KV キャッシュが小さく、レイヤー数も少ない。
Llama 4 Maverick合計400 B、アクティブ17 B2025‑04‑05Sparse MoEGQADense ブロックと MoE ブロックを交互に配置。DeepSeek V3 より大きなエキスパートを使用。
Qwen3 235B‑A22B合計235 B、アクティブ22 B2025‑04‑28Sparse MoEGQA with QK‑Norm高容量 MoE をサービング効率に最適化。共有エキスパートは使用しない。
Qwen3 32B32 B パラメータ2025‑04‑28DenseGQA with QK‑Norm8 KV ヘッドを備えたリファレンス密集型 Qwen スタック。
Qwen3 4B4 B パラメータ2025‑04‑28DenseGQA with QK‑Normコンパクトな Qwen スタック、語彙は151k。
Qwen3 8B8 B パラメータ2025‑04‑28DenseGQA with QK‑Norm8 KV ヘッドを備えたリファレンス密集型 Qwen スタック。
SmolLM3 3B3 B パラメータ2025‑06‑19DenseGQA with periodic NoPE layers第4層ごとに RoPE を省略し、NoPE の周期性を検証。
Kimi K2合計1 T、アクティブ32 B2025‑07‑10Sparse MoEMLADeepSeek V3 より多くのエキスパートと少ない MLA ヘッドを採用。
GLM‑4.5 355B合計355 B、アクティブ32 B2025‑07‑28Sparse MoEGQA with QK‑NormMoE ルーティング前に3層の Dense を配置し、共有エキスパートを維持。
GPT‑OSS 120B120 B パラメータ2025‑08‑04Sparse MoEGQA with alternating sliding‑window & global layersOpenAI のオープンウェイト旗艦モデルを拡張。
GPT‑OSS 20B合計20 B、アクティブ3.6 B2025‑08‑04Sparse MoEGQA with alternating sliding‑window & global layersQwen3 より広く浅い設計。アテンションバイアスとシンク機構を含む。
Grok 2.5 270B270 B パラメータ2025‑08‑22Sparse MoEGQA常時オンの SwiGLU パスを追加し、共有エキスパートと同様に振る舞う。
Qwen3 Next 80B‑A3B合計80 B、アクティブ3 B2025‑09‑09Sparse hybrid3:1 Gated DeltaNet & Gated Attentionより多くのエキスパートと共有エキスパートを備え、ネイティブ262k コンテキスト。
MiniMax M2 230B合計230 B、アクティブ10 B2025‑10‑23Sparse MoEGQA with QK‑Norm & partial RoPEレイヤーごとに QK‑Norm を適用し、Qwen3 より疎い MoE ルーティングを採用。
Kimi Linear 48B‑A3B合計48 B、アクティブ3 B2025‑10‑30Sparse hybrid3:1 Kimi Delta Attention & MLAMLA 層で NoPE を使用し、長文効率のためにチャンネルワイズゲーティングを採用。
OLMo 3 32B32 B パラメータ2025‑11‑20DenseGQA with QK‑Norm + 3:1 sliding‑window/global attentionPost‑norm を保持し、幅を拡大、YaRN はグローバル層のみで適用。
OLMo 3 7B7 B パラメータ2025‑11‑20DenseMHA with QK‑Norm + 3:1 sliding‑window/global attentionPost‑norm を維持し、MHA を保ちつつ YaRN はグローバル層のみで適用。
DeepSeek V3.2合計671 B、アクティブ37 B2025‑12‑01Sparse MoEMLA with DeepSeek Sparse Attention効率向上を重視した進化版更新。
Mistral 3 Large合計673 B、アクティブ41 B2025‑12‑02Sparse MoEMLADeepSeek V3 のほぼ複製。大きなエキスパートと少ないルーティングエキスパートを採用し、マルチモーダル対応。
Nemotron 3 Nano 30B‑A3B合計30 B、アクティブ3 B2025‑12‑04Hybrid MoEMostly Mamba‑2 + few GQA layersMamba‑2 と MoE ブロックを交互に配置。注意は限定的に使用。
Xiaomi MiMo‑V2‑Flash 309B合計309 B、アクティブ15 B2025‑12‑16Sparse MoE5:1 sliding‑window/global attention非常に小さな128トークンローカルウィンドウとマルチトークン予測を採用。
GLM‑4.7 355B合計355 B、アクティブ32 B2025‑12‑22Sparse MoEGQA with QK‑NormPre‑MLA ベースライン。GLM‑4.5 と同じ32 B アクティブパスを維持。
Arcee AI Trinity Large 400B合計400 B、アクティブ13 B2026‑01‑27Sparse MoEGQA with gated attention + 3:1 sliding‑window/global attentionQK‑Norm, RoPE+NoPE, サンドイッチノーマル化、粗粒度 MoE を組み合わせた設計。
GLM‑5 744B合計744 B、アクティブ40 B2026‑02‑11Sparse MoEMLA with DeepSeek Sparse AttentionGLM‑4.7 より大きく、エキスパート数は多いが層数は少ない。
Nemotron 3 Super 120B‑A12B合計120 B、アクティブ12 B2026‑03‑11Hybrid MoEMostly Mamba‑2 + few GQA layers潜在空間 MoE と共有重み MTP を追加し高速推論を実現。
Step 3.5 Flash 196B合計196 B、アクティブ11 B2026‑02‑01Sparse MoEGQA with 3:1 sliding‑window attentionトレーニングと推論で MTP‑3 を使用し高スループットを実現。
Nanbeige 4.1 3B3 B パラメータ2026‑02‑10DenseGQALlama ライクスタックだが、入力埋め込みと出力層の結合は行わない。
MiniMax M2.5 230B合計230 B、アクティブ10 B2026‑02‑12Sparse MoEGQA with QK‑Normスライディングウィンドウや線形注意ハイブリッドは使用せず、10 B のアクティブパスを維持。
Tiny Aya 3.35B3.35 B パラメータ2026‑02‑13DenseGQA with 3:1 sliding‑window attention注意と MLP を並列実行し、RoPE と NoPE を混在。
Ling 2.5 1T合計1 T、アクティブ63 B2026‑02‑15Sparse hybridLightning Attention + MLA7:1 線形注意/MLA 比率と大規模63 B アクティブパスを採用。
Qwen3.5 397B合計397 B、アクティブ17 B2026‑02‑16Sparse hybrid3:1 Gated DeltaNet + Gated Attention以前の Qwen3‑Next 側分を新しいコア設計に転換。512 エキスパートと17 B アクティブ。
Sarvam 105B合計105 B、アクティブなし2026‑03‑03Sparse MoEMLA with KV LayerNorm, NoPE + RoPE大語彙とインド語への強力サポートを備えた MLA ベースのスパース MoE 配置。
Sarvam 30B合計30 B、アクティブなし2026‑03‑03Sparse MoEGQA with QK‑Norm推論指向のインド語スパース MoE。GQA を小規模に維持。

情報源

  • 「The Big LLM Architecture Comparison」 – ディープおよび MoE、MLA、ハイブリッドデコーダファミリー全体を網羅したアーキテクチャ図と主要設計選択を解説するオリジナル比較記事。
  • 「A Dream of Spring for Open‑Weight LLMs」 – 2026 年初頭に登場した MiniMax、Qwen、Ling、Sarvam といった新規オープンウェイトモデルのフォローアップ記事。

同じ日のほかのニュース

一覧に戻る →

2026/03/16 4:12

「Chrome DevTools MCP」 (原文と同じく略語をそのまま使用します)

## Japanese Translation: **改訂要約** Chrome の MCP(Machine‑Code Processor)サーバーは、現在実行中の Chrome セッションに直接コーディングエージェントを接続できるようになり、新しいインスタンスを毎回起動する必要がなくなりました。 この機能を利用するには、`chrome://inspect#remote-debugging` でリモートデバッグを有効化し、MCP サーバーを `--autoConnect` フラグ付きで起動します(例:`gemini-cli --autoConnect --channel=beta`)。 エージェントがセッションを要求すると、Chrome は許可ダイアログを表示し、「Chrome is being controlled by automated test software」というバナーを表示します。エージェントはそのアクティブなセッションに対して Network や Elements などの DevTools パネルへアクセスできます。 MCP サーバーは依然として元々の起動方法をサポートしています:ユーザープロファイルの指定、リモートデバッグポート経由での接続、または隔離された一時プロファイルの実行。 サンプルワークフローは次のとおりです。リモートデバッグを有効化した後、エージェントプロンプトに「Check the performance of https://developers.chrome.com」と入力すると、MCP サーバーが接続し、ページを開き、パフォーマンストレースを取得します。 Chrome M144(Beta)で利用可能なこの機能は、デベロッパーが新しいセッションを開くことなく手動の DevTools 使用と AI 支援デバッグをシームレスに切り替えられるようにし、将来的に MCP を通じてコーディングエージェントへより多くの DevTools パネルデータを段階的に公開する基盤を整備します。

2026/03/16 6:22

カナダの法案 C‑22 は、カナダ国民への大量メタデータ監視を義務付けています。

## Japanese Translation: > Bill C‑22(Lawful Access Act)は、通信事業者および電子サービスプロバイダー(ESP)への法執行アクセスを拡大すると同時に、一部のプライバシー制限を強化します。従来のBill C‑2で広範な無証拠要求が認められていた点を置き換え、通信事業者に対しては「サービス確認」権限のみを限定的に付与します。他の加入者情報については、合理的根拠基準に基づく裁判所承認命令が必要となります。 > > 本法ではまた、Supporting Authorized Access to Information Act(SAAIA)も導入されます。この条項はBill C‑2の多くの要件を反映しつつ、GoogleやMetaなどのESPにも適用します。ESPはデバイス・機能テストへの協力、要求の秘密保持、および「コアプロバイダー」として指定される可能性があります。コアプロバイダーは、データ抽出ツールの開発・テスト・維持管理、監視装置の設置、当局への機能通知、そして特定メタデータ(例:送信ログ)を最大1年間保持する義務があります。ただし、**送信内容、ウェブ閲覧履歴、またはソーシャルメディア活動の保持を強制されることはありません**—この例外はシステム的脆弱性への対処に限定されています。 > > 監督はインテリジェンス・コミッショナーが承認した省令によって行われますが、多くの詳細は機密扱いとなっています。本法は、ブダペスト条約第二追加議定書や米国のCLOUD Actなどとの国際情報共有協力を改善することを目的としていますが、重大な市民権利懸念を提起し、通信事業者およびESPに大きなコンプライアンス負担を課す可能性があります。結果として、ユーザーの監視リスクが高まる恐れがあります。

2026/03/16 4:25

49 MB のウェブページ

## Japanese Translation: 記事は、現代のニュースサイトがデータ量の多いリクエストや侵入的な広告、トラッキングスクリプトで読者を過剰に負荷させていると主張し、滑らかな閲覧体験よりも収益を優先していることを指摘しています。 - **具体的証拠:** ニューヨーク・タイムズの記事1件が422のネットワークリクエスト、49 MBのデータを生成し、安定するまでに2分かかったと報告されています。2006年には同じページは1.5 Mbpsの接続で数分間停止していた(10曲分のMP3音源に相当)。 - **広告インフラ:** クライアント側のプログレマティックオークションがRubicon ProjectやAmazon Ad Systemsなどのエクスチェンジへ何十もの同時入札リクエストを送信し、膨大なJavaScript解析を要求します。 - **トラッキングペイロード:** 約5 MBのトラッキングスクリプトがPOSTビーコンをファーストパーティー端点(例: a.et.nytimes.com/track)やクロスサイトトラッカー(doubleclick.net、casalemedia)へ送信し、バックグラウンドでユーザー識別情報を構築します。IABの「purr」同意エンドポイントはページロード直後にこれらのスクリプトを即座に起動させるため、クッキーバナーはプライバシー保護ではなく法的シールドであることが示されています。 - **UX戦術:** パブリッシャーはCPMやビューアビリティ指標を読者体験よりも重視し、モーダルポップアップ、低コントラストの閉じアイコン、強制スクロール、自動再生のスティッキービデオ(CPU熱、バッテリー消費、Fitts法違反)や「Read More」ボタンで記事を切り捨て、追加広告をロードします。これらは広告iframeが遷移後に読み込まれる際にレイアウトシフト(CLS)を引き起こし、Google Core Web Vitalsの指標による離脱率を高めます。 - **モバイル問題:** モバイルニュースサイトはコンテンツに約11 %しかビューポートを割り当てず、狭いスリット状の表示領域がインタラクションコストを増大させます。 - **緩和策:** 非必須オーバーレイはスクロール深度≥50 %または60 秒滞在後に遅延し、モーダルキューを順序付け、アクセシブルで低侵襲のモーダルを使用し、非同期コンテンツ用スペースを確保してCLSを回避します。 - **代替案:** text.npr.org、lite.cnn.com、およびRSSフィードといった軽量フォーマットは、読者が余計な要素のないプライバシーフレンドリーなニュース消費を好むことを示し、広告中心のUIパラダイムに挑戦します。 **結果:** このまとめはすべての主要ポイントを完全に反映し、説明のない推測を避け、記事の主張を明確で読者フレンドリーな概要として提示しています。

**LLMアーキテクチャギャラリー** | そっか~ニュース