2026/03/16 1:01

LLMアーキテクチャギャラリー

RSS: https://news.ycombinator.com/rss

要約▶

日本語訳：

(欠落している詳細を含む):

要約

この文書は最近の大規模言語モデル（LLM）のリリースを一覧化し、各モデルがサイズ・効率性・専門化のバランスをどのように取っているかを示しています。Llama 3 8B（GQA + RoPE, pre‑norm）や OLMo 2 7B（MHA + QK‑Norm, inside‑residual post‑norm）といった密なデコーダから、より大きく疎な Mixture‑of‑Experts (MoE) システムへと明確にシフトしていることがわかります。例として DeepSeek V3（総計 671 billion、アクティブ 37 billion; MLA attention, 密接頭辞＋共有エキスパート）や Llama 4 Maverick（総計 400 billion、アクティブ 17 billion; 密なブロックと MoE ブロックを交互に配置し、大きめのエキスパートを採用）が挙げられます。

強調されている主な仕様は、総計対アクティブパラメータ数、デコーダーブロックタイプ、注意機構（GQA または QK‑Norm）、そして Qwen3 235B‑A22B の共有エキスパート除去や Nemotron 3 Nano 30B‑A3B のハイブリッド MoE アーキテクチャといったユニークな特徴です。データは、企業がレイテンシー、長文コンテキスト処理、多言語語彙、およびマルチモーダルサポートを最適化しながら推論コストを抑える方法を示しています。

今後のリリース—OLMo 3 32B、DeepSeek V3.2、Mistral 3 Large—は総パラメータ数の拡大と同時にアクティブ経路の縮小を通じて効率性向上を継続する傾向を示唆しています。Nemotron 3 Nano のような新興ハイブリッド MoE モデルは、注意機構なしのアーキテクチャへの実験を示唆しています。ユーザーや企業にとっては、低レイテンシーまたはメモリ使用量で稼働できるより高度なモデルへのアクセスが可能となり、長文推論、多言語チャットボット、ビジョン‑ランゲージタスクなどの専門的アプリケーションを実現しつつ運用コストを抑えることができます。

本文

モデルアーキテクチャ概要

モデル	スケール	発表日	デコーダタイプ	アテンション	重要ポイント
Llama 3 8B	8 B パラメータ	2024‑04‑18	Dense	GQA with RoPE	Pre‑norm ベースライン。OLMo 2 と同程度の規模で幅が広い。
OLMo 2 7B	7 B パラメータ	2024‑11‑25	Dense	MHA with QK‑Norm	通常の pre‑norm 配列ではなく inside‑residual post‑norm を採用。
DeepSeek V3	合計671 B、アクティブ37 B	2024‑12‑26	Sparse MoE	MLA	Dense prefix + shared expert により、推論時に非常に大きなモデルを実現。
DeepSeek R1	合計671 B、アクティブ37 B	2025‑01‑20	Sparse MoE	MLA	V3 と同一構成だが、推論指向のトレーニングレシピを採用。
Gemma 3 27B	27 B パラメータ	2025‑03‑11	Dense	GQA with QK‑Norm + 5:1 スライディングウィンドウ／グローバルアテンション	高密度ローカルアテンションと大規模多言語語彙。
Mistral Small 3.1 24B	24 B パラメータ	2025‑03‑18	Dense	Standard GQA	レイテンシ最適化設計。Gemma 3 27B より KV キャッシュが小さく、レイヤー数も少ない。
Llama 4 Maverick	合計400 B、アクティブ17 B	2025‑04‑05	Sparse MoE	GQA	Dense ブロックと MoE ブロックを交互に配置。DeepSeek V3 より大きなエキスパートを使用。
Qwen3 235B‑A22B	合計235 B、アクティブ22 B	2025‑04‑28	Sparse MoE	GQA with QK‑Norm	高容量 MoE をサービング効率に最適化。共有エキスパートは使用しない。
Qwen3 32B	32 B パラメータ	2025‑04‑28	Dense	GQA with QK‑Norm	8 KV ヘッドを備えたリファレンス密集型 Qwen スタック。
Qwen3 4B	4 B パラメータ	2025‑04‑28	Dense	GQA with QK‑Norm	コンパクトな Qwen スタック、語彙は151k。
Qwen3 8B	8 B パラメータ	2025‑04‑28	Dense	GQA with QK‑Norm	8 KV ヘッドを備えたリファレンス密集型 Qwen スタック。
SmolLM3 3B	3 B パラメータ	2025‑06‑19	Dense	GQA with periodic NoPE layers	第4層ごとに RoPE を省略し、NoPE の周期性を検証。
Kimi K2	合計1 T、アクティブ32 B	2025‑07‑10	Sparse MoE	MLA	DeepSeek V3 より多くのエキスパートと少ない MLA ヘッドを採用。
GLM‑4.5 355B	合計355 B、アクティブ32 B	2025‑07‑28	Sparse MoE	GQA with QK‑Norm	MoE ルーティング前に3層の Dense を配置し、共有エキスパートを維持。
GPT‑OSS 120B	120 B パラメータ	2025‑08‑04	Sparse MoE	GQA with alternating sliding‑window & global layers	OpenAI のオープンウェイト旗艦モデルを拡張。
GPT‑OSS 20B	合計20 B、アクティブ3.6 B	2025‑08‑04	Sparse MoE	GQA with alternating sliding‑window & global layers	Qwen3 より広く浅い設計。アテンションバイアスとシンク機構を含む。
Grok 2.5 270B	270 B パラメータ	2025‑08‑22	Sparse MoE	GQA	常時オンの SwiGLU パスを追加し、共有エキスパートと同様に振る舞う。
Qwen3 Next 80B‑A3B	合計80 B、アクティブ3 B	2025‑09‑09	Sparse hybrid	3:1 Gated DeltaNet & Gated Attention	より多くのエキスパートと共有エキスパートを備え、ネイティブ262k コンテキスト。
MiniMax M2 230B	合計230 B、アクティブ10 B	2025‑10‑23	Sparse MoE	GQA with QK‑Norm & partial RoPE	レイヤーごとに QK‑Norm を適用し、Qwen3 より疎い MoE ルーティングを採用。
Kimi Linear 48B‑A3B	合計48 B、アクティブ3 B	2025‑10‑30	Sparse hybrid	3:1 Kimi Delta Attention & MLA	MLA 層で NoPE を使用し、長文効率のためにチャンネルワイズゲーティングを採用。
OLMo 3 32B	32 B パラメータ	2025‑11‑20	Dense	GQA with QK‑Norm + 3:1 sliding‑window/global attention	Post‑norm を保持し、幅を拡大、YaRN はグローバル層のみで適用。
OLMo 3 7B	7 B パラメータ	2025‑11‑20	Dense	MHA with QK‑Norm + 3:1 sliding‑window/global attention	Post‑norm を維持し、MHA を保ちつつ YaRN はグローバル層のみで適用。
DeepSeek V3.2	合計671 B、アクティブ37 B	2025‑12‑01	Sparse MoE	MLA with DeepSeek Sparse Attention	効率向上を重視した進化版更新。
Mistral 3 Large	合計673 B、アクティブ41 B	2025‑12‑02	Sparse MoE	MLA	DeepSeek V3 のほぼ複製。大きなエキスパートと少ないルーティングエキスパートを採用し、マルチモーダル対応。
Nemotron 3 Nano 30B‑A3B	合計30 B、アクティブ3 B	2025‑12‑04	Hybrid MoE	Mostly Mamba‑2 + few GQA layers	Mamba‑2 と MoE ブロックを交互に配置。注意は限定的に使用。
Xiaomi MiMo‑V2‑Flash 309B	合計309 B、アクティブ15 B	2025‑12‑16	Sparse MoE	5:1 sliding‑window/global attention	非常に小さな128トークンローカルウィンドウとマルチトークン予測を採用。
GLM‑4.7 355B	合計355 B、アクティブ32 B	2025‑12‑22	Sparse MoE	GQA with QK‑Norm	Pre‑MLA ベースライン。GLM‑4.5 と同じ32 B アクティブパスを維持。
Arcee AI Trinity Large 400B	合計400 B、アクティブ13 B	2026‑01‑27	Sparse MoE	GQA with gated attention + 3:1 sliding‑window/global attention	QK‑Norm, RoPE+NoPE, サンドイッチノーマル化、粗粒度 MoE を組み合わせた設計。
GLM‑5 744B	合計744 B、アクティブ40 B	2026‑02‑11	Sparse MoE	MLA with DeepSeek Sparse Attention	GLM‑4.7 より大きく、エキスパート数は多いが層数は少ない。
Nemotron 3 Super 120B‑A12B	合計120 B、アクティブ12 B	2026‑03‑11	Hybrid MoE	Mostly Mamba‑2 + few GQA layers	潜在空間 MoE と共有重み MTP を追加し高速推論を実現。
Step 3.5 Flash 196B	合計196 B、アクティブ11 B	2026‑02‑01	Sparse MoE	GQA with 3:1 sliding‑window attention	トレーニングと推論で MTP‑3 を使用し高スループットを実現。
Nanbeige 4.1 3B	3 B パラメータ	2026‑02‑10	Dense	GQA	Llama ライクスタックだが、入力埋め込みと出力層の結合は行わない。
MiniMax M2.5 230B	合計230 B、アクティブ10 B	2026‑02‑12	Sparse MoE	GQA with QK‑Norm	スライディングウィンドウや線形注意ハイブリッドは使用せず、10 B のアクティブパスを維持。
Tiny Aya 3.35B	3.35 B パラメータ	2026‑02‑13	Dense	GQA with 3:1 sliding‑window attention	注意と MLP を並列実行し、RoPE と NoPE を混在。
Ling 2.5 1T	合計1 T、アクティブ63 B	2026‑02‑15	Sparse hybrid	Lightning Attention + MLA	7:1 線形注意／MLA 比率と大規模63 B アクティブパスを採用。
Qwen3.5 397B	合計397 B、アクティブ17 B	2026‑02‑16	Sparse hybrid	3:1 Gated DeltaNet + Gated Attention	以前の Qwen3‑Next 側分を新しいコア設計に転換。512 エキスパートと17 B アクティブ。
Sarvam 105B	合計105 B、アクティブなし	2026‑03‑03	Sparse MoE	MLA with KV LayerNorm, NoPE + RoPE	大語彙とインド語への強力サポートを備えた MLA ベースのスパース MoE 配置。
Sarvam 30B	合計30 B、アクティブなし	2026‑03‑03	Sparse MoE	GQA with QK‑Norm	推論指向のインド語スパース MoE。GQA を小規模に維持。

情報源

「The Big LLM Architecture Comparison」 – ディープおよび MoE、MLA、ハイブリッドデコーダファミリー全体を網羅したアーキテクチャ図と主要設計選択を解説するオリジナル比較記事。
「A Dream of Spring for Open‑Weight LLMs」 – 2026 年初頭に登場した MiniMax、Qwen、Ling、Sarvam といった新規オープンウェイトモデルのフォローアップ記事。

同じ日のほかのニュース

一覧に戻る →

2026/03/16 4:12

「Chrome DevTools MCP」（原文と同じく略語をそのまま使用します）

## Japanese Translation: **改訂要約** Chrome の MCP（Machine‑Code Processor）サーバーは、現在実行中の Chrome セッションに直接コーディングエージェントを接続できるようになり、新しいインスタンスを毎回起動する必要がなくなりました。この機能を利用するには、`chrome://inspect#remote-debugging` でリモートデバッグを有効化し、MCP サーバーを `--autoConnect` フラグ付きで起動します（例：`gemini-cli --autoConnect --channel=beta`）。エージェントがセッションを要求すると、Chrome は許可ダイアログを表示し、「Chrome is being controlled by automated test software」というバナーを表示します。エージェントはそのアクティブなセッションに対して Network や Elements などの DevTools パネルへアクセスできます。 MCP サーバーは依然として元々の起動方法をサポートしています：ユーザープロファイルの指定、リモートデバッグポート経由での接続、または隔離された一時プロファイルの実行。サンプルワークフローは次のとおりです。リモートデバッグを有効化した後、エージェントプロンプトに「Check the performance of https://developers.chrome.com」と入力すると、MCP サーバーが接続し、ページを開き、パフォーマンストレースを取得します。 Chrome M144（Beta）で利用可能なこの機能は、デベロッパーが新しいセッションを開くことなく手動の DevTools 使用と AI 支援デバッグをシームレスに切り替えられるようにし、将来的に MCP を通じてコーディングエージェントへより多くの DevTools パネルデータを段階的に公開する基盤を整備します。

2026/03/16 6:22

カナダの法案 C‑22 は、カナダ国民への大量メタデータ監視を義務付けています。

## Japanese Translation: > Bill C‑22（Lawful Access Act）は、通信事業者および電子サービスプロバイダー（ESP）への法執行アクセスを拡大すると同時に、一部のプライバシー制限を強化します。従来のBill C‑2で広範な無証拠要求が認められていた点を置き換え、通信事業者に対しては「サービス確認」権限のみを限定的に付与します。他の加入者情報については、合理的根拠基準に基づく裁判所承認命令が必要となります。 > > 本法ではまた、Supporting Authorized Access to Information Act（SAAIA）も導入されます。この条項はBill C‑2の多くの要件を反映しつつ、GoogleやMetaなどのESPにも適用します。ESPはデバイス・機能テストへの協力、要求の秘密保持、および「コアプロバイダー」として指定される可能性があります。コアプロバイダーは、データ抽出ツールの開発・テスト・維持管理、監視装置の設置、当局への機能通知、そして特定メタデータ（例：送信ログ）を最大1年間保持する義務があります。ただし、**送信内容、ウェブ閲覧履歴、またはソーシャルメディア活動の保持を強制されることはありません**—この例外はシステム的脆弱性への対処に限定されています。 > > 監督はインテリジェンス・コミッショナーが承認した省令によって行われますが、多くの詳細は機密扱いとなっています。本法は、ブダペスト条約第二追加議定書や米国のCLOUD Actなどとの国際情報共有協力を改善することを目的としていますが、重大な市民権利懸念を提起し、通信事業者およびESPに大きなコンプライアンス負担を課す可能性があります。結果として、ユーザーの監視リスクが高まる恐れがあります。

2026/03/16 4:25

49 MB のウェブページ

## Japanese Translation: 記事は、現代のニュースサイトがデータ量の多いリクエストや侵入的な広告、トラッキングスクリプトで読者を過剰に負荷させていると主張し、滑らかな閲覧体験よりも収益を優先していることを指摘しています。 - **具体的証拠:** ニューヨーク・タイムズの記事1件が422のネットワークリクエスト、49 MBのデータを生成し、安定するまでに2分かかったと報告されています。2006年には同じページは1.5 Mbpsの接続で数分間停止していた（10曲分のMP3音源に相当）。 - **広告インフラ:** クライアント側のプログレマティックオークションがRubicon ProjectやAmazon Ad Systemsなどのエクスチェンジへ何十もの同時入札リクエストを送信し、膨大なJavaScript解析を要求します。 - **トラッキングペイロード:** 約5 MBのトラッキングスクリプトがPOSTビーコンをファーストパーティー端点（例: a.et.nytimes.com/track）やクロスサイトトラッカー（doubleclick.net、casalemedia）へ送信し、バックグラウンドでユーザー識別情報を構築します。IABの「purr」同意エンドポイントはページロード直後にこれらのスクリプトを即座に起動させるため、クッキーバナーはプライバシー保護ではなく法的シールドであることが示されています。 - **UX戦術:** パブリッシャーはCPMやビューアビリティ指標を読者体験よりも重視し、モーダルポップアップ、低コントラストの閉じアイコン、強制スクロール、自動再生のスティッキービデオ（CPU熱、バッテリー消費、Fitts法違反）や「Read More」ボタンで記事を切り捨て、追加広告をロードします。これらは広告iframeが遷移後に読み込まれる際にレイアウトシフト(CLS)を引き起こし、Google Core Web Vitalsの指標による離脱率を高めます。 - **モバイル問題:** モバイルニュースサイトはコンテンツに約11 %しかビューポートを割り当てず、狭いスリット状の表示領域がインタラクションコストを増大させます。 - **緩和策:** 非必須オーバーレイはスクロール深度≥50 %または60 秒滞在後に遅延し、モーダルキューを順序付け、アクセシブルで低侵襲のモーダルを使用し、非同期コンテンツ用スペースを確保してCLSを回避します。 - **代替案:** text.npr.org、lite.cnn.com、およびRSSフィードといった軽量フォーマットは、読者が余計な要素のないプライバシーフレンドリーなニュース消費を好むことを示し、広告中心のUIパラダイムに挑戦します。 **結果:** このまとめはすべての主要ポイントを完全に反映し、説明のない推測を避け、記事の主張を明確で読者フレンドリーな概要として提示しています。

**LLMアーキテクチャギャラリー**

日本語訳：

要約

情報源

同じ日のほかのニュース

LLMアーキテクチャギャラリー