
2025/12/15 23:39
Nvidia Nemotron 3 Family of Models
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
NVIDIAは、エージェント型AIのために非常に効率的でオープンソースな大型言語モデル(LLM)の新しいラインとしてNemotron 3ファミリー―Nano、Super、およびUltra―をリリースしました。
- Nano は現在利用可能です。総パラメータ数は31.6 Bですが、推論時には約3.2 B(≈½)のみがアクティベートされます。最大1 Mトークンのコンテキストウィンドウをサポートし、人気のベンチマークでGPT‑OSS‑20BおよびQwen3‑30B‑A3Bを上回ります。8K/16K設定にて単一H200でQwen3‑30B‑A3Bより3.3倍、GPT‑OSS‑20Bより2.2倍のスループットを達成します。RULERベンチマークでは、複数のコンテキスト長で両モデルを上回ります。
- Super と Ultra は今後数か月で登場し、Latent MoEレイヤー、多トークン予測、NVFP4トレーニング、1 Mトークンコンテキスト、強化学習ポストトレーニング、および推論時のバジェット制御を追加します。
アーキテクチャはMambaスタイルの効率的なトランスフォーマーとMixture‑of‑Experts(MoE)レイヤー、潜在処理ステージを組み合わせており、高度な最適化で訓練されています。NVIDIAは完全なモデルウェイト(Nano 30B‑A3B FP8/BF16/Base BF16、Qwen‑3‑Nemotron‑235B‑A22B‑GenRM)、Nemotron Developer Repositoryにあるトレーニングレシピ、および広範なデータセット(Nemotron‑CC‑v2.1、Nemotron‑CC‑Code‑v1、Nemotron‑Pretraining‑Code‑v2、Nemotron‑Pretraining‑Specialized‑v1、Nemotron‑SFT‑Data、Nemotron‑RL‑Data)をリリースしています。サポート資料には「NVIDIA Nemotron 3: Efficient and Open Intelligence」ホワイトペーパー、Nano技術報告書、およびHugging FaceとNVIDIA Tech Blogのブログ投稿が含まれます。
オープンウェイト、レシピ、データを提供することで、NVIDIAは最先端のエージェント型AIへのアクセスを民主化し、開発者や企業が巨大なパラメータセットにかかるコストなしで強力で効率的なシステムを展開できるように目指しています。
本文
公開日: 2025年12月15日
NVIDIA Nemotron 3 ホワイトペーパー & ナノテックレポート
本稿では、エージェント型 AI アプリケーションにおいて最高の精度を誇る最も効率的なオープンモデルファミリー NVIDIA Nemotron 3 を発表します。
Nemotron 3 ファミリーは Nano、Super、Ultra の 3 つのモデルで構成されており、強力なエージェント性・推論力・対話能力を提供します。
- Nano – 最小サイズのモデルであり、同等規模の他モデルよりも高い精度を実現しながら、推論コストが極めて低く抑えられます。
- Super – コラボレーティブエージェントや IT チケット自動化など大量ワークロード向けに最適化されています。
- Ultra – 最大サイズのモデルで、最先端の精度と推論性能を提供します。
現在は Nemotron 3 Nano モデルと技術レポートをリリースしています;Super と Ultra のリリースは数か月以内に予定です。
Nemotron 3 テクノロジー
| 機能 | 説明 |
|---|---|
| Hybrid MoE | ハイブリッド Mamba‑Transformer Mixture‑of‑Experts アーキテクチャを採用し、最高峰のスループットと標準 Transformer を上回る精度を実現。 |
| LatentMoE | Super と Ultra は Latent MoE を使用し、ハードウェアに最適化されたエキスパート設計で精度向上を図ります。 |
| Multi‑Token Prediction (MTP) | Super と Ultra に MTP レイヤーが組み込まれ、大規模テキスト生成の効率と品質を高めます。 |
| NVFP4 | Super と Ultra は NVFP4 精度で訓練されています。 |
| Long Context | 最大 100 万トークンまでのコンテキスト長に対応。 |
| Multi‑Environment RL Post‑Training | 多様な強化学習環境で訓練され、タスク全体で優れた精度を実現。 |
| Granular Reasoning Budget Control at Inference Time | 推論時の予算制御に合わせて最適化されたモデルです。 |
Nemotron 3 Nano
- サイズ: 3.2 B アクティブパラメータ(埋め込み含む 3.6 B)、総パラメータ数 31.6 B。
- 性能: 前世代 Nemotron 2 Nano を上回り、1 回のフォワード実行で活性化されるパラメータは前モデルの半分以下です。
主なハイライト
- GPT‑OSS‑20B および Qwen3‑30B‑A3B‑Thinking‑2507 以上の精度を、複数カテゴリにわたる人気ベンチマークで達成。
- 単一 H200 を使用した 8 K 入力 / 16 K 出力設定で、推論スループットが Qwen3‑30B‑A3B より 3.3 倍、GPT‑OSS‑20B より 2.2 倍 高速。
- 最大 100 万トークンまでのコンテキスト長をサポートし、RULER ベンチマークでは GPT‑OSS‑20B および Qwen3‑30B‑A3B‑Instruct‑2507 を上回る性能を示す。
- モデル重み、訓練レシピ、および再配布権を保有する全データを公開しています。
オープンソースリリース
チェックポイント
| モデル | 説明 |
|---|---|
| Nemotron 3 Nano 30B‑A3B FP8 | ポストトレーニング済みで FP8 に量子化された Nano モデル。 |
| Nemotron 3 Nano 30B‑A3B BF16 | BF16 版ポストトレーニングモデル。 |
| Nemotron 3 Nano 30B‑A3B Base BF16 | BF16 のベース版前訓練モデル。 |
| Qwen‑3‑Nemotron‑235B‑A22B‑GenRM | RLHF に使用された GenRM モデル。 |
データ
- Nemotron‑CC‑v2.1: Common Crawl から取得した 2.5 兆新英語トークン(最近の 3 つスナップショットを精選、合成再表現・翻訳)。
- Nemotron‑CC‑Code‑v1: Lynx + LLM パイプラインで処理した Common Crawl Code ページから抽出された 428 億高品質コードトークン。数式・コードを保持し、LaTeX に標準化、ノイズ除去。
- Nemotron‑Pretraining‑Code‑v2: GitHub コード参照のリフレッシュ版で、多段階フィルタリング・重複排除・品質フィルタを実施。大規模合成コードデータも含む。
- Nemotron‑Pretraining‑Specialized‑v1: STEM 推論や科学コーディングなど専門領域向けの合成データセット。
- Nemotron‑SFT‑Data: Nemotron 3 Nano 用 SFT データセット。
- Nemotron‑RL‑Data: Nemotron 3 Nano 用 RL データセット。
モデルレシピ
- NVIDIA Nemotron Developer Repository
追加情報
- ブログ – HuggingFace | NVIDIA Tech Blog
- ホワイトペーパー: NVIDIA Nemotron 3: Efficient and Open Intelligence
- Nano 技術レポート: Nemotron 3 Nano: Open, Efficient Mixture‑of‑Experts Hybrid Mamba‑Transformer Model for Agentic Reasoning