
2026/01/28 9:57
**トリニティ・ラージ** オープンな400 B スパースMoEモデル
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
(combining all key points with clarity):** --- ### Trinity‑Large: A Fast, Open, State‑of‑the‑Art Sparse MoE Language Model Trinity‑Large は、1 つのトークンで約 13 B パラメータ(256 エキスパート、1.56 % ルーティング分率)しか活性化しない 400 B パラメータを持つ sparse mixture‑of‑experts モデルです。10 T、4 T、3 T の三段階で **17 T** のキュレーション済みトークンを使用して訓練されました。プログラミング・STEM・推論・多言語コンテンツをカバーする合成データが用いられ、Momentum‑based エキスパートロードバランシング、1 シーケンスあたりのバランスロス、z‑loss 正則化で LM‑head ロジットを抑制し、効率的な注意機構(HSDP)と 8‑expert 並列処理が採用されました。 **リリースされたバリアント** | バリアント | 説明 | |---------|-------------| | **Trinity‑Large‑Preview** | 軽くポストトレーニングし、チャット対応。創造的執筆・物語作成・ロールプレイ・リアルタイム音声支援・エージェントタスク(OpenCode, Cline, Kilo Code)で優れた性能を発揮します。まだ推論モデルではありません。 | | **Trinity‑Large‑Base** | 完全な 17 T 事前訓練チェックポイント。ベンチマークと研究資源として使用されます。 | | **TrueBase** | 初期の 10 T チェックポイントで、指示データや LR アニーリングが含まれていません。大規模な高品質事前訓練効果を研究するのに最適です。 | 全体の作業―6か月間にわたる4つのモデル―は約 **2,000 万ドル** の費用で、**2048 台の Nvidia B300 GPU** を使用し、**33 日間** にわたって訓練されました。 **性能** - 数学・コーディング・科学的推論・原知識ベンチマークにおいて同等またはそれ以上の性能を示します。 - 推論速度は、同じハードウェア上で比較可能な重みクラスモデルより約 2–3 倍速です。 - ベンチマーク比較(Preview vs. Llama 4 Maverick): - MMLU: 87.2 vs. 85.5 - MMLU‑Pro: 75.2 vs. 80.5 - GPQA‑Diamond: 63.3 vs. 69.8 - AIME 2025: 24.0 vs. 19.3 **技術的詳細** - ネイティブコンテキスト長:**512k トークン**。Preview API はインフラ調整中に 128k と 8‑bit 量子化で動作します。 - モデルと API は Hugging Face、OpenRouter、および Arcee.ai を通じて公開されており、Kilo Code、Cline、OpenCode 用の統合がすぐに利用可能です。 **コミュニティへの関与** チームは Trinity‑Large が最先端レベルでありながら所有権と実際の使用を念頭に置いて設計されていることを強調し、ユーザーに失敗例を報告してもらうことでオープンモデルが継続的に改善できるよう奨励しています。
本文
2か月前に「他人の仕事として事前学習を扱うことをやめる理由」について書きました。
その頃、Trinity Nano Preview と Trinity Mini がリリースされ、Trinity Large のトレーニングが始まっていました。私たちは最初の実行の真っ只中にいて、笑い転げたり吐き気を催したりするほど大規模でした。正直言うと、優れたベースモデルが完成するか、財布だけは疲れて顔面打ち落ちるかのどちらかだと思っていました。しかし、実際には両方とも手に入れることになりました。
何をリリースしたか
| バリアント | 説明 |
|---|---|
| Trinity‑Large‑Preview | 軽いポストトレーニングでチャット対応済み。 |
| Trinity‑Large‑Base | 完全な17Tルートにおける最高の事前学習チェックポイント。 |
| TrueBase | 同じ実行の10Tトークン時点の早期チェックポイントで、指示データもLRアニーリングもなく、本物のベースモデルです。 |
Trinity‑Large
- 400 Bパラメータのスパース MoE(1トークンあたり13 B活性パラメータ)
- 256 experts を使用し、各トークンで4 experts が活性化(疎率 ≈ 1.56 %)
| モデル | ルーティング (k-of‑N) | ルーティング分率 |
|---|---|---|
| Trinity Large | 4‑of‑256 | 1.56 % |
| DeepSeek‑V3 | 8‑of‑256 | 3.13 % |
| MiniMax‑M2 | 8‑of‑256 | 3.13 % |
| GLM‑4.5 | 8‑of‑160 | 5.0 % |
| Qwen3‑235B‑A22B | 8‑of‑128 | 6.25 % |
| Llama 4 Maverick | 1‑of‑128 | 0.78 % |
当初は420 B程度のサイズを想定していましたが、疎率を安定させるために密結合層を3から6へ増やしました。
パフォーマンスハイライト
- 推論効率 – 2048台のNvidia B300 GPUで訓練。公開された中では最大規模の事前学習実行です。
- 大きな利点は「非常に高速」かつ「高コスト」。30日程度に限定し、疎性+効率的注意機構を活用してコストを抑えつつ、同等重みクラスの他モデルより2–3倍速いスループットを実現しました。
- モメンタムベースのエキスパートロードバランシング – 各エキスパートのルーター バイアスは使用量に応じて上げ下げされ、tanh クリップで制限しモメンタムで平滑化。シーケンス単位でのバランスロスを導入し、バッチ間だけでなく個々のシーケンス内でも負荷を均等にしました。
- z‑loss – 軽量正則化で LM ヘッドのロジットが上昇するのを抑制。最大値・平均値など基本統計をログし、安定性低下の早期警告とします。
- 最速構成 – HSDP とエキスパート並列 8 を組み合わせ、2048 データ並列レコードを実現。5 Tトークンで訓練後もバッチサイズを拡大できたのは、モデルが非常に疎で Muon が AdamW より大きなクリティカルバッチサイズをサポートしているためです。
完全な事前学習実行は 33日 で完了しました(事前学習のみ。コンテキスト拡張やポストトレーニングは含みません)。
データ
Trinity Large は DatologyAI が策定した17 Tトークンを3フェーズ(10 T、4 T、3 T)に分けて学習しました。データセットには最新のプログラミング・STEM・推論・多言語データが含まれ、14 の非英語言語を対象としています。合計 8 T トークン以上のシンセティックデータはリフレーズ手法で生成されました。
Trinity‑Large‑Preview
- まだ推論モデルではなく、主に「インストラクション」モデルとして軽いポストトレーニングを行っています。
- 創作ライティング・物語構築・ロールプレイ・チャットシナリオ・リアルタイム音声支援で優れた性能を発揮します。
- OpenCode、Cline、Kilo Code などのエージェントハーネスで良好に動作し、複雑なツールチェーンと長く制約付きプロンプトも処理可能です。
| ベンチマーク | Llama 4 Maverick | Trinity‑Large Preview |
|---|---|---|
| MMLU | 85.5 | 87.2 |
| MMLU‑Pro | 80.5 | 75.2 |
| GPQA‑Diamond | 69.8 | 63.3 |
| AIME 2025 | 19.3 | 24.0 |
Preview は OpenRouter 上で少なくとも 2026 年 2 月まで無料です。
コスト
全ての計算、給与、データ、ストレージ、運用は 2000 万ドル(4 モデル)で賄われました。この数字は最先端研究所に比べると控えめですが、私たちには大きな意味があります。無限に再試行できるわけではありません。
TrueBase
- 400 B スパース MoE 上で10 T トークンの事前学習を実施。
- インストラクションデータも LR アニーリングもなく、同規模で最も純粋なベースチェックポイントです。
RLHF やチャットフォーマッティング以前に高品質な事前学習を研究したい方に理想的です。
使いどころ
- OpenRouter – Trinity‑Large‑Preview は Preview 時間中無料で利用できます。
- Kilo Code、Cline、OpenCode – ローンチ時に統合済み。Trinity Large はコーディングエージェントとしてオプションに登場(まだ粗い部分があるかもしれません)。
Trinity Large は 512 k のコンテキストをネイティブでサポートし、Preview API は 128 k を 8‑bit 量子化で実行しつつインフラ調整中です。
リンク
- ウェイト
- API / チャット –
chat.arcee.ai - ドキュメント –
docs.arcee.ai - OpenRouter – arcee‑ai/trinity-large-preview
このモデルをデプロイして問題が発生したらぜひお知らせください。オープンモデルの改善は、ベンチマークだけでなく実際に本番で使われることで最も速く進みます。
Trinity を構築できたこと、それを「フロンティアレベルのモデル」として所有できると自慢できるのが、私たちの最大の誇りです。