
2026/04/30 19:31
Granite 4.1:IBM の 8 バイオントップモデルが 32 バイト Mixture of Experts(MoE)に対応する
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
IBM からは、Apache 2.0 ライセンスの下で公開されている言語モデルファミリー「Granite 4.1」が新登場し、このモデルは超大規模よりもデータ品質を重視しています。3B、8B、および 30B パラメータの 3 つのサイズが存在し、すべて MoE(エクスパートミックス)レイヤーを含まない単一密度のアーキテクチャを採用することで効率性を確保しつつ、コンテキストウィンドウを最大 512K(3B モデルでは 128K)に対応させています。これらのモデルは、LLM-as-Judge を用いて 6 つの次元で評価し、ハルシネーションや誤りを排除したのちに、15 トリリオンのトークンから正確に 410 万個の高品質なサンプルへフィルタリングするという厳格なプロセスを経て学習されました。また、このデータセットはチャット機能の強化と数学ベンチマークでの精度回復を目的として、4 つの段階的な強化学習(RL)ステージを経てさらに精製されました。
パフォーマンス評価においては、Granite 8B モデルが以前のより大きな Granite 4.0-H-Small を凌駕し、ArenaHard テストで 69.0 というスコアを獲得しました(対照的にその先行モデルは低いスコアとなっています)。ツールコールリングベンチマーク(BFCL V3)では、8B モデルが 68.3 のスコアを達成する一方、30B モデルは 73.7 を得て、Gemma-4-31B(72.7)を上回りました。IFEval の指示従順性においては Gema が依然としてリードしていますが、Granite 8B は Qwen3.5-9B と非常に近い水準を記録しています。Ollama、vLLM、Transformers など複数のフレームワークを通じて直ちに利用可能となり、FP8 クwantize 版も用意されており、メモリ使用量を削減できるようになっています。これにより、モデルサイズの単純な拡大ではなく、正確なデータキュレーションと効率的な設計によって高パフォーマンスを実現するという潮流が実証されました。
本文
広告バナー
IBM は、企業利用向けに特別に開発されたオープンソース言語モデルファミリー「Granite 4.1」を近日リリースしました。3 つのサイズ展開、Apache 2.0 ライセンス採用、15 トリリンのトークンを用いたトレーニングが行われ、その構築プロセスへの没頭ぶりは理解する価値があります。ベンチマークの結果は、それをどのように構築したかを理解しないと正しく解釈できません。特に 8B モデルについては、MoE(混合エキスパート)トリックや拡張的な推論連鎖を一切採用せず、単純なデナーストラクチャを備えています。これにより、以前から存在していた Granite 4.0-H-Small(320 億パラメータ中 90 億がアクティブ)との比較において、ほぼすべてのベンチマークで対等に渡り合い、あるいはそれを凌駕する結果を出しています。つまり、モデルのパラメータ数を増やすだけでなく、データ品質に注力することで得られた成果だと言えるでしょう。ここでは、Granite 4.1 がどのように構築されたか、数値の意味を解説し、それが実際のユースケースにおいてどのような価値を生むかを考察します。
目次
- 驚くべき結果:一見すると腑に落ちないベンチマークスコア
- 3 つのサイズ、一つのこだわり:モデルが実際にどのように構築されたか
- 悪質なデータを排除するフィルタ:トレーニング前に不要なデータをどうやって除外したか
- 4 段階の強化学習(RL):なぜこれほど多くのステップが必要だったか
- ベンチマーク結果の詳細
- 512K コンテキストウィンドウ:短コンテキスト性能を維持しつつ長文脈に対応する方法
- 実行方法
- 誰が関心を持つべきか
驚くべき結果:一見すると腑に落ちないベンチマークスコア
「Arena Hard」というベンチマークでは、GPT-4 を審査官に据えて、500 題の現実世界での難易度高いプロンプトに対するモデルの対応力を評価します。これは実際のチャット品質を測るための非常に信頼性の高い指標の一つです。今回の Granite 4.1 の 8B インスペクト版は、ここで 69.0 というスコアを記録しました。一方、前世代である Granite 4.0-H-Small は、320 億パラメータ(アクティブパラメータ 90 億)を持つ MoE モデルにもかかわらず、このスコアを下回ってしまいました。
また、「BFCL V3」という標準的なツール呼び出しベンチマークでは、8B モデルが 68.3 点を取得したのに対し、320 億パラメータの MoE モデルは 64.7 点と結果が悪化しています。GSM8K(小学校レベルの数学推論タスク)においても、8B モデルは 92.5 という高得点をマークしました。AlpacaEval、MMLU-Pro、BBH、EvalPlus、MBPP などを含む各種ベンチマークにおいて、同じような傾向が見られました。つまり、「密度が高く、設計が単純で、サイズも小さいモデル」が一貫して勝利を収めています。
これは単なる偶然ではなく、IBM が世代間でトレーニング技術に著しく向上したことを示しています。4.0-H-Small が能力不足だったわけではなく、その当時の IBM が持っていたベストモデルでした。そして、4.1 の 8B モデルとは、パラメータ数を増やすことよりも、その間の期間をデータ品質の改善に全振りすることで得られた成果です。Granite 4.1 の構築プロセスを通し全体に流れるテーマはまさにこれです。
3 つのサイズ、一つのこだわり:モデルが実際にどのように構築されたか
Granite 4.1 は、3B、8B、そして 30B の 3 つのサイズ展開を提供しています。この 3 つすべてのモデルは、同じ「デコーダーのみで構成される単純なトランスフォーマーアーキテクチャ」、同じトレーニングパイプライン、そして同じデータ戦略を採用しています。違いはあるものの、それは単なるサイズの違いだけです。MoE ルーティング、スパースな層、あるいはトークン数を不必要に膨らませる拡張推論連鎖といった複雑な仕組みは採用されていません。「入力したものをそのまま処理し、予測可能な結果を毎回返す」という設計思想が貫かれています。長距離の推論痕跡(reasoning traces)に依存するモデルはコスト予測やレイテンシ予算の設定が難しくなりますが、Granite 4.1 はこれらを意図的に排除しています。
しかし、物語の本質はアーキテクチャ自体にあるわけではありません。物語の中核とは、「トレーニングに使用した 15 トリリンのトークンを極めて慎重に扱った点」にあります。
IBM は、5 つの異なるフェーズに分けてトレーニングを行いました。各フェーズではデータミックス、学習率スケジュール、そして目標が変化しました。
- フェーズ 1:広範な知識習得。データ構成は Web(CommonCrawl)59%、コード 20%、数学 7%。
- フェーズ 2:数学重視へシフト。数学は 35% に増加し、コードは 30% に調整。
- フェーズ 3 と 4:思考連鎖(Chain-of-Thought)推論の軌跡とインストラクションデータを加味しつつ、最高品質の Web コンテンツをブレンド。
- フェーズ 5:コンテキストウィンドウの拡張。最終的に 8B モデルと 30B モデルにおいて 512K トークンまで拡大。
多くのチームは一度選定したデータミックスに固執しますが、IBM は明確な目的を持ってデータを 4 つも変更しました。
関連記事: Laguna XS.2:公開当初予定していなかったような挙動を見せるモデルが、いよいよ公開されました。
悪質なデータを排除するフィルタ:トレーニング前に不要なデータをどうやって除外したか
データ品質パイプラインへの投資は多大であり、これだけの注力に独自の解説が必要なほどです。事前トレーニング(Pre-training)の終了後、このベースモデルを実際に指示に従うようにするためには、フィナーチューニングが不可欠ですが、単に良い振る舞いの例を学習させるだけでは不十分です。悪質な例(不良サンプル)は無視されるわけではなく、そのまま学習されてしまいます。幻覚が生じた回答、指示を無視した応答、自信を持って間違った計算結果など、モデルはこれらをすべて「シグナル」として扱い得ます。
そこで、フィナーチューニングのサンプルがモデルに到達する以前に、IBM は強力なフィルタリングシステムを構築しました。このシステムは、LLM-as-Judge(大規模言語モデルによる審査官)を利用し、アシスタントの回答を「指示の遵守度」「正確さ」「完全性」「簡潔さ」「自然さ」「較正(Calibration)」の 6 つの次元において厳しく評価します。各回答にスコアが割り振られ、閾値を下回るサンプルは除外されます。
さらに重要なのは、特定の項目についてはスコアに関わらず自動で却下される規則を設けている点です。幻覚、誤った前提条件、間違った計算などは、部分的な加点は一切与えず即座に却下されます。審査官はプロンプトやユーザー入力を孤立して読むのではなく、「モデルがアクセスできる全コンテキスト」を与えられた状態で評価を行います。RAG(文書検索拡張生成)のセットアップでは、検索された文書に基づいていない回答は幻覚としてカウントされます。ツール呼び出しシナリオでは、出力が許可されたツールとそのパラメータスキーマに準拠しているか厳しくチェックされます。
これに加えて、独立したルールベースのパイプラインによって、長さやフォーマット、スキーマ検証、データセット全体の重複除去などの構造的检查も実施されました。すべてはログ化され、監査可能になっています。こうしてフィルタリングを通過し、最終的に残されたのは 410 万サンプルです。数値上は多そうですが、これはあくまで「意図的に厳選された」410 万サンプルであることに注意が必要です。
関連記事: Open-Source TTS モデル:声のクローンも可能で、実際に人間の声を再現するモデルたち。
4 段階の強化学習(RL):なぜこれほど多くのステップが必要だったか
Granite 4.1 の技術論文の中でも特に興味深いのは、トレーニング途中で問題が発生したことを率直に認め、それをどう修正したかを明かしている部分です。
フィナーチューニングの後、IBM は順次 4 つの段階に分けて強化学習(RL)を行いました。
- ステージ 1:数学、科学、論理的推論、指示の遵守、構造化された出力、テキストから SQL への変換、時間的推論、チャット全般、文脈学習など 9 つのドメインを同時に共同でトレーニングしました。これを行う理由は、後続のドメインにおいて優位性を発揮するにつれて、以前のドメインを忘れさせないためです。すべての勾配アップデートでタスクの全範囲に触れることで、知識の定着を促進しました。
- ステージ 2:一般チャットのプロンプトを用いた RLHF(人間フィードバックに基づく強化学習)を行いました。報酬モデルを活用して「有用性」を改善しました。このステップは成功しており、AlpacaEval スコアが平均で約 18.9 ポイント向上しました。
- しかし、ここで破綻 occurred。RLHF ステージによってチャット品質は向上しましたが、数学ベンチマークのスコアが低下してしまいました。GSM8K や DeepMind-Math でスコアの悪化(劣化)が発生しました。
- ステージ 3:モデルが自己をどのように表し、何を知識としているかを安定させるための短い「アイデンティティと知識較正」走行を行いました。トレーニングステップ数は約 40 と少なかったものの、自己認識に関する面で測定可能な改善が見られました。
- ステージ 4:RLHF が悪くしてしまった数学能力を回復させるため、専用の数学 RL ランを実行しました。この措置は成功し、GSM8K では平均でベースラインより約 3.8 ポイント回復・超え、DeepMind-Math では約 23.5 ポイントの回復と顕著な改善を達成しました。
ベンチマーク結果の詳細
| ベンチマーク | 試験内容 | 3B モデル | 8B モデル | 30B モデル |
|---|---|---|---|---|
| IFEval | 指示の遵守度 | 82.1 | 87.1 | 89.7 |
| BFCL V3 | ツール呼び出し能力 | 60.8 | 68.3 | 73.7 |
| GSM8K | 数学推論(基礎) | 87.0 | 92.5 | 94.2 |
| DeepMind-Math | 高度な数学推論 | 64.6 | 80.1 | 81.9 |
| EvalPlus | コーディング能力 | 67.1 | 80.2 | 82.7 |
| ArenaHard | 現実世界のチャット品質 | 37.8 | 69.0 | 71.0 |
| MMLU-Pro | 一般知識 | 49.8 | 56.0 | 64.1 |
30B モデルは、IBM 独自の BFCL V3 ツール呼び出しチャートでトップの 73.7 を記録し、Gemma-4-31B の 72.7 を上回っています。これは選り抜かれた内部比較ではなく、正当なリーダーボード結果です。また、8B モデルは 68.3 で前世代の Granite 4.0-H-Small の 64.7 を下回り、3B モデルでさえ 60.2 とする Qwen3-8B(自身のおよそ 2 倍サイズ)を超えるパフォーマンスを発揮しています。
指示の遵守度(IFEval)では、Gemma が 94.1 でトップを快走していますが、ここでは明瞭に言及すべきでしょう。その一方で、8B モデルは 87.1 で Qwen3.5-9B の 87.2 と実質的な同点であり、30B モデルはサイズに関係なくチャート上の全 Qwen モデルを超えています。
数学能力においては、8B モデルが GSM8K で 92.5、DeepMind-Math で 80.1 を達成し、30B モデルではそれぞれ 94.2 と 81.9 に達しています。コーディング能力(EvalPlus)では、8B が 80.2、30B が 82.7 という結果です。MBPP+ スコアはそれぞれ 70.6 と 71.7 です。
最も静かなりとも、しかし重要な存在が 3B モデルです。IFEval で 82.1、GSM8K で 87.0、BFCL V3 で 60.8 を記録しています。こうしたパラメータ数を踏まえると、エッジデバイスでの展開やコスト制約のある推論を考慮する際、これらの数値は無視できません。
注意点:すべての比較チャートは IBM 自身による評価ハルネストを使用してのものであり、絶対的な数値も自社の報告に基づいています。第三者からの報告と整合性はあるものの、ベンチマークの手法そのものには常に批判的眼光を持って見る必要があります。あくまで自己申告の結果であることに留意してください。
512K コンテキスト:短コンテキスト性能を維持しつつ長文脈に対応する方法
モデルが 512K トークンを処理できるようにすることは一つの課題ですが、それを達成する過程で「4K トークンといった短い文脈の扱い方」を忘れないようにすることは、別次元の難問です。IBM はこれを、事前トレーニングフェーズ 5 の段階的拡張アプローチによって解決しました。いきなり 512K へ跳躍したのではなく、32K から始まり、次いで 128K、そして最後に 512K という順序で段階的に拡張を行いました。各段階ではフェーズ 4 と同様のデータミックスを使用し、最終的な拡張フェーズのみ、特に 8B と 30B モデル向けに「書籍 80%、コードリポジトリ 20%」という比率に変えました。書籍や長尺なコードリポジトリは、Web データと異なり、数万トークンにわたって一貫した構造を持つ自然な長コンテキストデータです。
各拡張ステージの後、IBM はモデルマージ(Model Merge)作業を行いました。これは短コンテキスト性能を保護するための重要なプロセスです。単にトレーニングを続行するのではなく、長コンテキストのチェックポイントを「以前の状態」の重みとマージすることで、短文脈において既に学習されていた振る舞いを保存しました。
RULER ベンチマーク(長コンテキスト能力が本物か、表面だけかをテスト)の結果を見ると、8B モデルは 32K で 83.6、64K で 79.1、128K で 73.0 というスコアを示しました。一方の 30B モデルでは 85.2、84.6、76.7 とより安定したパフォーマンスを発揮しています。コンテキストが大きくなるにつれてスコアが低下する傾向(ディградエーション)がありますが、これは当然で誠実な結果であり、スコアは崖のように急落するものではありません。
3B モデルは 128K までしか拡張されず、512K には対応していません。長コンテキストを要件とするユースケースの場合、この点は事前に知っておく必要があります。
関連記事: OpenMythos:Claude の Mythos に最も近く、かつオープンソースとして実行可能なモデルです。
実行方法(How to run it?)
最も手軽な入手方法は Ollama です。ハードウェアに合わせて適切なサイズのモデルをプルすれば OK です。3B モデルは一般的な消費者向けのマシンでも快適に動作し、8B モデルはいくらか余裕が必要です。30B モデルは GPU 搭載マシンの領域です。Hugging Face では
ibm-granite という名前で全てのサイズが公開されていますので、それらを使用したい場合はそちらを利用してください。
生産環境での利用を想定する場合、vLLM や Transformers のライブラリでそのままモデルを実行できます。コミットする前にローカルインフラを評価したい場合、IBM では API 経由でもモデルの利用が可能です。メモリ容量が制約となる場合は、FP8 クアンタ化バージョンを試すことをお勧めします。これはフルプレシジョン版のほぼ半分のサイズでありながら、大部分のパフォーマンスを保っています。Apache 2.0 ライセンスで提供されているため、商用利用も問題ありません。
誰が関心を持つべきか
信頼性の高いツール呼び出し、予測可能なレイテンシ、そして将来の法的トラブルを招かないライセンス環境が求められるプロジェクトにおいて、Granite 4.1 は真剣に検討すべき選択肢です。特に 8B モデルは、実行コストの高いモデルと遜色ない競争力を持ち、ベンチマークも誠実であるため、導入時に予想外のトラブルに直面するリスクがありません。
3B モデルは、エッジデバイスのユースケースや、厳しい推論予算を考慮する場合に興味深いです。一方、パフォーマンスの天井(上限)が必要で、それに対応したハードウェアを備えている場合、30B モデルが最適です。
IBM がここで構築したのは、問題を隠すのではなく修正することに時間を費やすチームによって開発された、「生産第一」のモデルファミリーです。トレーニング途中の性能劣化を検知し、それを修正する 4 ステージ強化学習パイプラインのような詳細はニュースヘッドラインにはなりにくいかもしれませんが、実世界の信頼性においては極めて重要です。