
**トリニティ・ラージ** オープンな400 B スパースMoEモデル
## Japanese Translation: ``` (combining all key points with clarity):** --- ### Trinity‑Large: A Fast, Open, State‑of‑the‑Art Sparse MoE Language Model Trinity‑Large は、1 つのトークンで約 13 B パラメータ(256 エキスパート、1.56 % ルーティング分率)しか活性化しない 400 B パラメータを持つ sparse mixture‑of‑experts モデルです。10 T、4 T、3 T の三段階で **17 T** のキュレーション済みトークンを使用して訓練されました。プログラミング・STEM・推論・多言語コンテンツをカバーする合成データが用いられ、Momentum‑based エキスパートロードバランシング、1 シーケンスあたりのバランスロス、z‑loss 正則化で LM‑head ロジットを抑制し、効率的な注意機構(HSDP)と 8‑expert 並列処理が採用されました。 **リリースされたバリアント** | バリアント | 説明 | |---------|-------------| | **Trinity‑Large‑Preview** | 軽くポストトレーニングし、チャット対応。創造的執筆・物語作成・ロールプレイ・リアルタイム音声支援・エージェントタスク(OpenCode, Cline, Kilo Code)で優れた性能を発揮します。まだ推論モデルではありません。 | | **Trinity‑Large‑Base** | 完全な 17 T 事前訓練チェックポイント。ベンチマークと研究資源として使用されます。 | | **TrueBase** | 初期の 10 T チェックポイントで、指示データや LR アニーリングが含まれていません。大規模な高品質事前訓練効果を研究するのに最適です。 | 全体の作業―6か月間にわたる4つのモデル―は約 **2,000 万ドル** の費用で、**2048 台の Nvidia B300 GPU** を使用し、**33 日間** にわたって訓練されました。 **性能** - 数学・コーディング・科学的推論・原知識ベンチマークにおいて同等またはそれ以上の性能を示します。 - 推論速度は、同じハードウェア上で比較可能な重みクラスモデルより約 2–3 倍速です。 - ベンチマーク比較(Preview vs. Llama 4 Maverick): - MMLU: 87.2 vs. 85.5 - MMLU‑Pro: 75.2 vs. 80.5 - GPQA‑Diamond: 63.3 vs. 69.8 - AIME 2025: 24.0 vs. 19.3 **技術的詳細** - ネイティブコンテキスト長:**512k トークン**。Preview API はインフラ調整中に 128k と 8‑bit 量子化で動作します。 - モデルと API は Hugging Face、OpenRouter、および Arcee.ai を通じて公開されており、Kilo Code、Cline、OpenCode 用の統合がすぐに利用可能です。 **コミュニティへの関与** チームは Trinity‑Large が最先端レベルでありながら所有権と実際の使用を念頭に置いて設計されていることを強調し、ユーザーに失敗例を報告してもらうことでオープンモデルが継続的に改善できるよう奨励しています。 ```























