Granite 4.1:IBM の 8 バイオントップモデルが 32 バイト Mixture of Experts(MoE)に対応する

2026/04/30 19:31

Granite 4.1:IBM の 8 バイオントップモデルが 32 バイト Mixture of Experts(MoE)に対応する

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

IBM からは、Apache 2.0 ライセンスの下で公開されている言語モデルファミリー「Granite 4.1」が新登場し、このモデルは超大規模よりもデータ品質を重視しています。3B、8B、および 30B パラメータの 3 つのサイズが存在し、すべて MoE(エクスパートミックス)レイヤーを含まない単一密度のアーキテクチャを採用することで効率性を確保しつつ、コンテキストウィンドウを最大 512K(3B モデルでは 128K)に対応させています。これらのモデルは、LLM-as-Judge を用いて 6 つの次元で評価し、ハルシネーションや誤りを排除したのちに、15 トリリオンのトークンから正確に 410 万個の高品質なサンプルへフィルタリングするという厳格なプロセスを経て学習されました。また、このデータセットはチャット機能の強化と数学ベンチマークでの精度回復を目的として、4 つの段階的な強化学習(RL)ステージを経てさらに精製されました。

パフォーマンス評価においては、Granite 8B モデルが以前のより大きな Granite 4.0-H-Small を凌駕し、ArenaHard テストで 69.0 というスコアを獲得しました(対照的にその先行モデルは低いスコアとなっています)。ツールコールリングベンチマーク(BFCL V3)では、8B モデルが 68.3 のスコアを達成する一方、30B モデルは 73.7 を得て、Gemma-4-31B(72.7)を上回りました。IFEval の指示従順性においては Gema が依然としてリードしていますが、Granite 8B は Qwen3.5-9B と非常に近い水準を記録しています。Ollama、vLLM、Transformers など複数のフレームワークを通じて直ちに利用可能となり、FP8 クwantize 版も用意されており、メモリ使用量を削減できるようになっています。これにより、モデルサイズの単純な拡大ではなく、正確なデータキュレーションと効率的な設計によって高パフォーマンスを実現するという潮流が実証されました。

本文

広告バナー

IBM は、企業利用向けに特別に開発されたオープンソース言語モデルファミリー「Granite 4.1」を近日リリースしました。3 つのサイズ展開、Apache 2.0 ライセンス採用、15 トリリンのトークンを用いたトレーニングが行われ、その構築プロセスへの没頭ぶりは理解する価値があります。ベンチマークの結果は、それをどのように構築したかを理解しないと正しく解釈できません。特に 8B モデルについては、MoE(混合エキスパート)トリックや拡張的な推論連鎖を一切採用せず、単純なデナーストラクチャを備えています。これにより、以前から存在していた Granite 4.0-H-Small(320 億パラメータ中 90 億がアクティブ)との比較において、ほぼすべてのベンチマークで対等に渡り合い、あるいはそれを凌駕する結果を出しています。つまり、モデルのパラメータ数を増やすだけでなく、データ品質に注力することで得られた成果だと言えるでしょう。ここでは、Granite 4.1 がどのように構築されたか、数値の意味を解説し、それが実際のユースケースにおいてどのような価値を生むかを考察します。


目次

  • 驚くべき結果:一見すると腑に落ちないベンチマークスコア
  • 3 つのサイズ、一つのこだわり:モデルが実際にどのように構築されたか
  • 悪質なデータを排除するフィルタ:トレーニング前に不要なデータをどうやって除外したか
  • 4 段階の強化学習(RL):なぜこれほど多くのステップが必要だったか
  • ベンチマーク結果の詳細
  • 512K コンテキストウィンドウ:短コンテキスト性能を維持しつつ長文脈に対応する方法
  • 実行方法
  • 誰が関心を持つべきか

驚くべき結果:一見すると腑に落ちないベンチマークスコア

「Arena Hard」というベンチマークでは、GPT-4 を審査官に据えて、500 題の現実世界での難易度高いプロンプトに対するモデルの対応力を評価します。これは実際のチャット品質を測るための非常に信頼性の高い指標の一つです。今回の Granite 4.1 の 8B インスペクト版は、ここで 69.0 というスコアを記録しました。一方、前世代である Granite 4.0-H-Small は、320 億パラメータ(アクティブパラメータ 90 億)を持つ MoE モデルにもかかわらず、このスコアを下回ってしまいました。

また、「BFCL V3」という標準的なツール呼び出しベンチマークでは、8B モデルが 68.3 点を取得したのに対し、320 億パラメータの MoE モデルは 64.7 点と結果が悪化しています。GSM8K(小学校レベルの数学推論タスク)においても、8B モデルは 92.5 という高得点をマークしました。AlpacaEval、MMLU-Pro、BBH、EvalPlus、MBPP などを含む各種ベンチマークにおいて、同じような傾向が見られました。つまり、「密度が高く、設計が単純で、サイズも小さいモデル」が一貫して勝利を収めています。

これは単なる偶然ではなく、IBM が世代間でトレーニング技術に著しく向上したことを示しています。4.0-H-Small が能力不足だったわけではなく、その当時の IBM が持っていたベストモデルでした。そして、4.1 の 8B モデルとは、パラメータ数を増やすことよりも、その間の期間をデータ品質の改善に全振りすることで得られた成果です。Granite 4.1 の構築プロセスを通し全体に流れるテーマはまさにこれです。


3 つのサイズ、一つのこだわり:モデルが実際にどのように構築されたか

Granite 4.1 は、3B、8B、そして 30B の 3 つのサイズ展開を提供しています。この 3 つすべてのモデルは、同じ「デコーダーのみで構成される単純なトランスフォーマーアーキテクチャ」、同じトレーニングパイプライン、そして同じデータ戦略を採用しています。違いはあるものの、それは単なるサイズの違いだけです。MoE ルーティング、スパースな層、あるいはトークン数を不必要に膨らませる拡張推論連鎖といった複雑な仕組みは採用されていません。「入力したものをそのまま処理し、予測可能な結果を毎回返す」という設計思想が貫かれています。長距離の推論痕跡(reasoning traces)に依存するモデルはコスト予測やレイテンシ予算の設定が難しくなりますが、Granite 4.1 はこれらを意図的に排除しています。

しかし、物語の本質はアーキテクチャ自体にあるわけではありません。物語の中核とは、「トレーニングに使用した 15 トリリンのトークンを極めて慎重に扱った点」にあります。

IBM は、5 つの異なるフェーズに分けてトレーニングを行いました。各フェーズではデータミックス、学習率スケジュール、そして目標が変化しました。

  • フェーズ 1:広範な知識習得。データ構成は Web(CommonCrawl)59%、コード 20%、数学 7%。
  • フェーズ 2:数学重視へシフト。数学は 35% に増加し、コードは 30% に調整。
  • フェーズ 3 と 4:思考連鎖(Chain-of-Thought)推論の軌跡とインストラクションデータを加味しつつ、最高品質の Web コンテンツをブレンド。
  • フェーズ 5:コンテキストウィンドウの拡張。最終的に 8B モデルと 30B モデルにおいて 512K トークンまで拡大。

多くのチームは一度選定したデータミックスに固執しますが、IBM は明確な目的を持ってデータを 4 つも変更しました。

関連記事: Laguna XS.2:公開当初予定していなかったような挙動を見せるモデルが、いよいよ公開されました。


悪質なデータを排除するフィルタ:トレーニング前に不要なデータをどうやって除外したか

データ品質パイプラインへの投資は多大であり、これだけの注力に独自の解説が必要なほどです。事前トレーニング(Pre-training)の終了後、このベースモデルを実際に指示に従うようにするためには、フィナーチューニングが不可欠ですが、単に良い振る舞いの例を学習させるだけでは不十分です。悪質な例(不良サンプル)は無視されるわけではなく、そのまま学習されてしまいます。幻覚が生じた回答、指示を無視した応答、自信を持って間違った計算結果など、モデルはこれらをすべて「シグナル」として扱い得ます。

そこで、フィナーチューニングのサンプルがモデルに到達する以前に、IBM は強力なフィルタリングシステムを構築しました。このシステムは、LLM-as-Judge(大規模言語モデルによる審査官)を利用し、アシスタントの回答を「指示の遵守度」「正確さ」「完全性」「簡潔さ」「自然さ」「較正(Calibration)」の 6 つの次元において厳しく評価します。各回答にスコアが割り振られ、閾値を下回るサンプルは除外されます。

さらに重要なのは、特定の項目についてはスコアに関わらず自動で却下される規則を設けている点です。幻覚、誤った前提条件、間違った計算などは、部分的な加点は一切与えず即座に却下されます。審査官はプロンプトやユーザー入力を孤立して読むのではなく、「モデルがアクセスできる全コンテキスト」を与えられた状態で評価を行います。RAG(文書検索拡張生成)のセットアップでは、検索された文書に基づいていない回答は幻覚としてカウントされます。ツール呼び出しシナリオでは、出力が許可されたツールとそのパラメータスキーマに準拠しているか厳しくチェックされます。

これに加えて、独立したルールベースのパイプラインによって、長さやフォーマット、スキーマ検証、データセット全体の重複除去などの構造的检查も実施されました。すべてはログ化され、監査可能になっています。こうしてフィルタリングを通過し、最終的に残されたのは 410 万サンプルです。数値上は多そうですが、これはあくまで「意図的に厳選された」410 万サンプルであることに注意が必要です。

関連記事: Open-Source TTS モデル:声のクローンも可能で、実際に人間の声を再現するモデルたち。


4 段階の強化学習(RL):なぜこれほど多くのステップが必要だったか

Granite 4.1 の技術論文の中でも特に興味深いのは、トレーニング途中で問題が発生したことを率直に認め、それをどう修正したかを明かしている部分です。

フィナーチューニングの後、IBM は順次 4 つの段階に分けて強化学習(RL)を行いました。

  • ステージ 1:数学、科学、論理的推論、指示の遵守、構造化された出力、テキストから SQL への変換、時間的推論、チャット全般、文脈学習など 9 つのドメインを同時に共同でトレーニングしました。これを行う理由は、後続のドメインにおいて優位性を発揮するにつれて、以前のドメインを忘れさせないためです。すべての勾配アップデートでタスクの全範囲に触れることで、知識の定着を促進しました。
  • ステージ 2:一般チャットのプロンプトを用いた RLHF(人間フィードバックに基づく強化学習)を行いました。報酬モデルを活用して「有用性」を改善しました。このステップは成功しており、AlpacaEval スコアが平均で約 18.9 ポイント向上しました。
  • しかし、ここで破綻 occurred。RLHF ステージによってチャット品質は向上しましたが、数学ベンチマークのスコアが低下してしまいました。GSM8K や DeepMind-Math でスコアの悪化(劣化)が発生しました。
  • ステージ 3:モデルが自己をどのように表し、何を知識としているかを安定させるための短い「アイデンティティと知識較正」走行を行いました。トレーニングステップ数は約 40 と少なかったものの、自己認識に関する面で測定可能な改善が見られました。
  • ステージ 4:RLHF が悪くしてしまった数学能力を回復させるため、専用の数学 RL ランを実行しました。この措置は成功し、GSM8K では平均でベースラインより約 3.8 ポイント回復・超え、DeepMind-Math では約 23.5 ポイントの回復と顕著な改善を達成しました。

ベンチマーク結果の詳細

ベンチマーク試験内容3B モデル8B モデル30B モデル
IFEval指示の遵守度82.187.189.7
BFCL V3ツール呼び出し能力60.868.373.7
GSM8K数学推論(基礎)87.092.594.2
DeepMind-Math高度な数学推論64.680.181.9
EvalPlusコーディング能力67.180.282.7
ArenaHard現実世界のチャット品質37.869.071.0
MMLU-Pro一般知識49.856.064.1

30B モデルは、IBM 独自の BFCL V3 ツール呼び出しチャートでトップの 73.7 を記録し、Gemma-4-31B の 72.7 を上回っています。これは選り抜かれた内部比較ではなく、正当なリーダーボード結果です。また、8B モデルは 68.3 で前世代の Granite 4.0-H-Small の 64.7 を下回り、3B モデルでさえ 60.2 とする Qwen3-8B(自身のおよそ 2 倍サイズ)を超えるパフォーマンスを発揮しています。

指示の遵守度(IFEval)では、Gemma が 94.1 でトップを快走していますが、ここでは明瞭に言及すべきでしょう。その一方で、8B モデルは 87.1 で Qwen3.5-9B の 87.2 と実質的な同点であり、30B モデルはサイズに関係なくチャート上の全 Qwen モデルを超えています。

数学能力においては、8B モデルが GSM8K で 92.5、DeepMind-Math で 80.1 を達成し、30B モデルではそれぞれ 94.2 と 81.9 に達しています。コーディング能力(EvalPlus)では、8B が 80.2、30B が 82.7 という結果です。MBPP+ スコアはそれぞれ 70.6 と 71.7 です。

最も静かなりとも、しかし重要な存在が 3B モデルです。IFEval で 82.1、GSM8K で 87.0、BFCL V3 で 60.8 を記録しています。こうしたパラメータ数を踏まえると、エッジデバイスでの展開やコスト制約のある推論を考慮する際、これらの数値は無視できません。

注意点:すべての比較チャートは IBM 自身による評価ハルネストを使用してのものであり、絶対的な数値も自社の報告に基づいています。第三者からの報告と整合性はあるものの、ベンチマークの手法そのものには常に批判的眼光を持って見る必要があります。あくまで自己申告の結果であることに留意してください。


512K コンテキスト:短コンテキスト性能を維持しつつ長文脈に対応する方法

モデルが 512K トークンを処理できるようにすることは一つの課題ですが、それを達成する過程で「4K トークンといった短い文脈の扱い方」を忘れないようにすることは、別次元の難問です。IBM はこれを、事前トレーニングフェーズ 5 の段階的拡張アプローチによって解決しました。いきなり 512K へ跳躍したのではなく、32K から始まり、次いで 128K、そして最後に 512K という順序で段階的に拡張を行いました。各段階ではフェーズ 4 と同様のデータミックスを使用し、最終的な拡張フェーズのみ、特に 8B と 30B モデル向けに「書籍 80%、コードリポジトリ 20%」という比率に変えました。書籍や長尺なコードリポジトリは、Web データと異なり、数万トークンにわたって一貫した構造を持つ自然な長コンテキストデータです。

各拡張ステージの後、IBM はモデルマージ(Model Merge)作業を行いました。これは短コンテキスト性能を保護するための重要なプロセスです。単にトレーニングを続行するのではなく、長コンテキストのチェックポイントを「以前の状態」の重みとマージすることで、短文脈において既に学習されていた振る舞いを保存しました。

RULER ベンチマーク(長コンテキスト能力が本物か、表面だけかをテスト)の結果を見ると、8B モデルは 32K で 83.6、64K で 79.1、128K で 73.0 というスコアを示しました。一方の 30B モデルでは 85.2、84.6、76.7 とより安定したパフォーマンスを発揮しています。コンテキストが大きくなるにつれてスコアが低下する傾向(ディградエーション)がありますが、これは当然で誠実な結果であり、スコアは崖のように急落するものではありません。

3B モデルは 128K までしか拡張されず、512K には対応していません。長コンテキストを要件とするユースケースの場合、この点は事前に知っておく必要があります。

関連記事: OpenMythos:Claude の Mythos に最も近く、かつオープンソースとして実行可能なモデルです。


実行方法(How to run it?)

最も手軽な入手方法は Ollama です。ハードウェアに合わせて適切なサイズのモデルをプルすれば OK です。3B モデルは一般的な消費者向けのマシンでも快適に動作し、8B モデルはいくらか余裕が必要です。30B モデルは GPU 搭載マシンの領域です。Hugging Face では

ibm-granite
という名前で全てのサイズが公開されていますので、それらを使用したい場合はそちらを利用してください。

生産環境での利用を想定する場合、vLLM や Transformers のライブラリでそのままモデルを実行できます。コミットする前にローカルインフラを評価したい場合、IBM では API 経由でもモデルの利用が可能です。メモリ容量が制約となる場合は、FP8 クアンタ化バージョンを試すことをお勧めします。これはフルプレシジョン版のほぼ半分のサイズでありながら、大部分のパフォーマンスを保っています。Apache 2.0 ライセンスで提供されているため、商用利用も問題ありません。


誰が関心を持つべきか

信頼性の高いツール呼び出し、予測可能なレイテンシ、そして将来の法的トラブルを招かないライセンス環境が求められるプロジェクトにおいて、Granite 4.1 は真剣に検討すべき選択肢です。特に 8B モデルは、実行コストの高いモデルと遜色ない競争力を持ち、ベンチマークも誠実であるため、導入時に予想外のトラブルに直面するリスクがありません。

3B モデルは、エッジデバイスのユースケースや、厳しい推論予算を考慮する場合に興味深いです。一方、パフォーマンスの天井(上限)が必要で、それに対応したハードウェアを備えている場合、30B モデルが最適です。

IBM がここで構築したのは、問題を隠すのではなく修正することに時間を費やすチームによって開発された、「生産第一」のモデルファミリーです。トレーニング途中の性能劣化を検知し、それを修正する 4 ステージ強化学習パイプラインのような詳細はニュースヘッドラインにはなりにくいかもしれませんが、実世界の信頼性においては極めて重要です。

同じ日のほかのニュース

一覧に戻る →

2026/05/01 4:40

リンクedin は、拡張機能を 6,278 つスキャンし、その結果を全てのリクエストに暗号化して含めています。

## Japanese Translation: LinkedIn は、同意なく特定の Chrome 拡張機能を検出し処罰するために、ユーザーのブラウザを秘密裏にスキャンしており、基本的なプライバシー原則違反となっています。2026 年 4 月現在、そのスキャンカタログには 6,278 の拡張機能エントリが含まれており、少なくとも 2017 年から(当初は 38 から)積極的に維持されています。各拡張機能について、LinkedIn は chrome-extension:// URL に対して fetch() リクエストを發行し、失敗した場合はエラーがログに記録され、成功した場合は無視されて解決し、1 回の訪問あたり最大 6,278 のデータポイントが発生します。~1.6 MB の minified(圧縮された)かつ部分的に暗号化された JavaScript ファイルには、ハードコードされた拡張機能 ID と特定の web_accessible_resources パスが埋め込まれています。スキャンは 2 つのモードで実行されます:Promise.allSettled() を使用した同時並列リクエストと、設定可能な遅延( 때로는 requestIdleCallback に委譲される場合もあり)を持つ順次リクエストであり、パフォーマンスへの影響を隠蔽するためです。二次的なシステム「Spectroscopy」は、ハードコードされたリストに含まれていなくても chrome-extension:// URL を参照するアクティブなインタラクションを検出するために、独立して DOM ツリーを行進します。 拡張機能のみならず、LinkedIn の APFC/DNA ファフィンガープリントでは、キャンバスフィンガープリント、WebGL レンダラー、音声処理、インストール済みフォント、画面解像度、ピクセル比率、ハードウェア並列性、デバイスメモリ、バッテリーレベル、WebRTC によるローカル IP、タイムゾーン、言語など 48 の特性を収集し、これらを開示なしに収穫します。検出された拡張機能 ID は AedEvent および SpectroscopyEvent オブジェクトにパッケージ化され、RSA 公開鍵で暗号化され、LinkedIn の li/track エンドポイントに送信され、セッション中の後続のすべての API リクエストにおいて HTTP ヘッダーとして注入されます。 これらの実践により、求職ツール、政治コンテンツ拡張機能、宗教活動ツール、障害者支援ソフトウェア、神経多様性関連アプリケーションへの執行措置が可能となり、また LinkedIn は個人の詳細(例:アクティブな求職活動)を推測し、従業員間の組織ツールおよびワークフローをマッピングすることが可能です。この暗黙的なスキャンは LinkedIn のプライバシーポリシーに開示されておらず、EU デジタル市場法に違反しており、ゲートキーパーであるマイクロソフト(2024 年に指定)に対し、サードパーティツールを許可し、差別的な執行を禁止することを求めています。browsergate.eu によって公開準備が整っている完全な裁判所文書を通じて、法律当局——バイエルン州中央サイバー犯罪捜査庁(バーミング)など——は刑事調査を開始しました。ユーザーおよび企業は今後、プライバシー侵害とセキュリティ構成の暴露に対するリスクが高まっています。

2026/05/01 1:09

PyTorch Lightning の AI トレーニングライブラリに、神話上の風化獣「シャイ・フールード」をテーマにしたマルウェアが検出された

## Japanese Translation: 人気の PyPI パッケージ「lightning」の脆弱なバージョン 2(2.6.2 および 2.6.3)が、2026 年 4 月 30 日に公開されたことが、"Shai-Hulud"というテーマのオブフスクエードされた JavaScript 負荷を含むサプライチェーン攻撃で利用されました。マルウェアはモジュールをインポートするだけで自動的に実行され、認証情報、認証トークン、環境変数、クラウドシークレット(AWS、Azure Key Vault、GCP Secret Manager)、およびローカルファイルシステムの認証情報ファイルを盗みます。また、「EveryBoiWeBuildIsaWormBoi」という特定の命名規則と、"EveryBoiWeBuildIsAWormyBoi"で始まるコミットメッセージを用いて、公開の GitHub リポジトリを毒付けようとし、さらに C2 サーバーへの HTTPS POST、二重 base64 符号化されたトークンを伴う GitHub コミット検索デッドドロップ、攻撃者による公開リポジトリの利用、および `ghs_` トークンを用いて被害者のリポジトリに直接プッシュする、4 つの並列データ流出チャネルを利用しています。 この攻撃は、悪用された npm 認証情報を使用して公開されるあらゆるパッケージに対して、14.8 MB の `setup.mjs` ドロッパー(Bun ランタイム v1.3.13 をブートストアップする)と `router_runtime.js` ファイルを注入することで、PyPI から npm へと感染を広げます。永続性を確保するために、マルウェアは人気のある開発ツール設定ファイルにフックを注入します:Claude Code の `.claude/settings.json` への "SessionStart"フックと、VS Code の `.vscode/tasks.json` への `runOn: folderOpen` タスクです。攻撃者が書込みアクセス権を持っている場合、「Formatter」という名前の悪意のある GitHub Actions ワークフローがプッシュされ、「format-results」というダウンロード可能なアーティファクトとしてシークレットがダンプされます。さらに、`_runtime/`ディレクトリや `start.py`のようなファイルに隠れたフックも注入されます。 セキュリティ企業 Semgrep は、特定の検出規則を含む緊急のアドバースを発表しており、詳細は https://semgrep.dev/orgs/-/advisories で入手できます。影響を受けたユーザーは、直ちにすべての盗まれた認証情報(GitHub トークン、クラウドキー、API キー)の再発行を行い、`.claude/`、`.vscode/`、`_runtime/`ディレクトリなどに注入された悪意のあるスクリプトを含むプロジェクトを監査し、将来のサプライチェーン侵害を防ぐために厳格な依存関係フィルタを実装する必要があります。

2026/05/01 5:33

アップル、第四半期業績を発表

## Japanese Translation: アップルは、2026 年 3 月 28 日に終了した fiscal second quarter(第 2 四半期)で史上最高益を記録し、売上高は 1,112 億ドル(前年同期比 17% 増)、一株当たり利益は 2.01 ドル(同 22% 増)となりました。この業績は、iPhone 17 シリーズ(新 iPhone 17e を含む)への特異な需要から生じた iPhone 売上高の歴代最高記録、サービスの歴史的な成長、そして M4チップ搭載 iPad Air と MacBook Neo の成功した発売によって牽引されました。稼働キャッシュフローは四半期史上最高の 280 億ドルを超え、アップルの既存基盤はすべての主要製品カテゴリーおよび地域で史上最高に達しました。このモメンタムを報いるため、アップルは一株当たり 0.27 ドルの配当(4% 増)を宣告し、2026 年 5 月 14 日に記録日(レコードデー)として 2026 年 5 月 11 日の株主に対して支払い可能にするほか、追加の 1,000 億ドル規模の自社株式買回プログラムを承認しました。アップルの利益発表会合は、2026 年 4 月 30 日午後 2 時(太平洋標準時間)にライブストリーミング開始され、約 2 週間後のリプレイも利用可能です。詳細は apple.com/investor/earnings-call で確認できます。同社は堅調な財務体質とすべての主要セグメントにおける消費者の積極的な関与を強調しました。

Granite 4.1:IBM の 8 バイオントップモデルが 32 バイト Mixture of Experts(MoE)に対応する | そっか~ニュース