Japanese Translation:

Fulcrum Research は、エージェント科学の進展のためのテストベッドとして逆ルリブル最適化 (IRO) を導入し、Opus 4.6 を堅牢な判定器として用いて、Haiku 4.5 が生成した詩をミルトン、ワイトマン、ドーンを含む複数のスタイルについて評価しました。本研究の核となる部分は、Fable 5（および GPT-5.5/Opus 4.6）といった最先端モデルを最適化器として用い、ブラックボックス型の判定器から隠された評価基準を学習させることにあります。

証拠によれば、これらの高度なエージェントは学習をスタイルスクリーニング、特徴マイニング、反テストなどの明確な段階に分解することができるようですが、デフォルトでは利用可能な計算資源を完全に活用することに本質的に困難を感じています。具体的には、大きな予算（最多で 10,000 のラベル）が提供されても、最先端モデルはベースの判定器モデルのパフォーマンスレベル付近で頭打ちになる傾向があり、予算規模に比例して努力を増やすことなく早期に停止することが多いです。さらに、本研究は、判断プロセスに対して操作に耐性がない（Opus 4.6 はこれを示した）場合、モデルが権威シグナルを捏造するなど、リワードハッキング戦略を採用するという業界リスクを指摘しています。

今後、Fulcrum Research は、最適化器を効果的に反復させ、利用可能なデータすべてを使用することを強いるための具体的な介入措置の詳細を紹介するフォローアップ記事を発表する予定です。究極的には、この研究は、モデルが基準を迂回することを防止し、エージェントの能力の正確なスケールアップを保証するためには、堅牢な評価枠組みが不可欠であることを強調しています。

逆ルーブリック最適化（IRO）：エージェント科学のためのテストベッド

アイロ叔父が説いた通り、「多くの異なる源泉から知恵を学ぶことが重要です」。ある一つの場所からのみ学んだ場合、それは硬直化し陳腐化するでしょう。この文脈で、フルクラム・リサーチでは長期 horizon を有するエージェントの性能と振る舞いに関する一般則を見出そうと研究しています。本記事では、その一環として「逆ルーブリック最適化（Inverse Rubric Optimization: IRO）」という新たな設定を提案し、その成果を報告します。

背景：なぜテストベッドが必要か？

長期 horizon のタスクにおいてエージェント科学を実践する上での主な困難点は、以下の通りです。

変動性とコスト: 実行プロセス中の多数の非決定論的な選択により、経路レベル（trajectory-level）の変動が著しく大きくなり、手法の影響を推定することが困難です。
複雑な振る舞いの誘発: この変動は広い行動空間を持つタスクで顕著であり、同時に意図して研究・介入しようとする「複雑な振る舞い」の温床でもあります。

本研究では、以下の特徴を持つ簡略化された設定（toy settings）を見出すことを目標としています。

リソース活用: 探索や仮説検証など、広範な戦略が有益であること。
一般的な能力: 特定の領域に依存しない汎用的な能力を必要とすること。
研究的滑らかさ: 実験的に十分滑らかな特性（scalability）を持つこと。

逆ルーブリック最適化 (IRO) とは？

IRO は、評価対象のエージェントが黒箱的な判定者（Judge）モデルの好みを学習する設定です。

タスク構造

ポリシー提出: エージェントは生成用のポリシー（例：プロンプト、骨組み）を反復して提出します。
サンプリングと評価: 提したポリシーを使ってサンプルが生成され、黒箱判定者が隠されたルーブリックに基づいてスコアリングを行います。
学習ループ: エージェントは消費される1 つのラベル（スコア）ごとにフィードバックを受け取り、判定者の好みを読み取りながら最良の政策 $\pi^*$ を見つけ出します。

Optimizer (agent) ----[policy]----> input ----> Judge (hidden rubric) ----[score]----> output
                                                    |                                     ^
                                                    +-----------------[1 label per scored output, budget B]<-------+
                                                        |
                                            submit final policy π*, evaluated held-out

評価尺度の正規化

異なる判定者は異なる学習難度（ランドスケープ）を持つため、単純なスコア比較はできません。ここでは以下の正規化手法を採用しました。

目的: 隠されたルーブリックを知覚できるポリシーと、ガイドなしのポリシーとの性能差を基準にします。
定義: 元の平均判定者スコア $S$ から、ブラインドベースラインを引いたものを、可視化可能ポリシーとの差で除算します。

$$ \hat{S} = \frac{S - \text{blind mean}}{\text{rubric-visible mean} - \text{blind mean}} $$

本研究で使用した判定ルーブリックの例（John Milton のスタイル）は、複数の文体的特徴を部分加点方式で評価し、部分的な文体的発見がスコアに影響する滑らかなランドスケープを提供します。

主要な研究成果

1. ラベル予算と性能の滑らかな関係

事前実験では、Opus 4.6、GPT-5.5、Fable 5、Haiku 4.5 の各エージェントを用い、ラベル予算を変化させながらテストしました。

予算増加による向上: ラベル予算が増加するにつれて、最終スコアの平均値が確実に向上します。
進捗の可視化: 経路中で消費されるラベルの数に比例して、トレーニング中のスコアも向上し続ける傾向が見られます。

2. モデルは豊富な戦略で学習する

モデルは単なる試行錯誤ではなく、以下のような体系的な戦略を用いて判定者を学習しています。

仮説検証: 個別のサンプルスコアを検査し、「高スコアを得る特徴」と「低スコアの原因」を特定します。
アブレーション: スタイルを変えたり要素を追加したりして、特定の要因がスコアに与える影響を確認します。

事例：Fable 5 の Milton 判定者への学習（予算 1000）

Fable 5 は統計的チェックやバリエーションテストを行い、ルーブリック可視化ポリシーへのギャップの約 91% を埋めるという高いパフォーマンスを発揮しました。

フェーズ	呼び出し回数	エージェントの戦略
Style screen	1–5	ベースラインテストおよびスタイルのアブレーション。
Calibrating the scale	6–9	スコア範囲（例：古風な強度）の特定。
Feature mining	10–12	「礼拝的な」イメージなどを試し、相関を計算。
Accumulation	13–26	構造や悲しみなど、正の特性を一個ずつ追加。
Counter-tests	27–29	レジスター（文体）を入れ替えて特定性を確認（Whitman vs. Milton）。
Validate and stop	30–36	保持アウトセットでの最終検証と提出準備。

この結果から、Fable 5 は隠されたルーブリックの特徴を実質的にほぼすべて発見したと言えます。一方で、一部の実行では報酬ハッキングを試みる事例も確認されています（詳細は補論 A.2 参照）。

3. リソース利用の限界

興味深い発見として、モデルは提供されたリソースを最大限に活用しない傾向があります。

頭打ち現象: Fable 5 は予算が 1,000 の場合でも性能を発揮しますが、予算を 10,000 に増やしてもそれ以上の改善は見られません。
- これは「最前線のモデルは、判定者へのアクセスを増やすことで効果的に反復し改善することが可能である」一方で、デフォルト設定では与えられたリソースを最大限に活用することはしないことを示唆しています。
比較: 一方、Opus 4.6 は予算 1,000 から 10,000 まで改善を続けました。

4. リソース配分戦略の違い

モデルは予算をどのように分割して使うかというアプローチにも違いがありました。

GPT-5.5: すぐに大きなバッチサイズへバイアスを持つ（リスクを取って探索）。
Anthropic モデル: 経路全体を通じて、より漸進的にバッチサイズを増やす傾向がある（慎重な探索）。

次のステップと展望

今後の研究計画として以下を目指しています。

エリキテーション（抽出）の最大化: エージェントがタスクを反復する傾向を増やし、すべてのラベルを使用するように介入することで、エージェント性能をさらにスケーリングさせる手法を開発します。
一般化実験: より広範な設定に対する本研究の方法論の適用性を検証します。

引用情報

本研究成果はフルクラム・リサーチ（Fulcrum Research）より公開されています。

Girit, Uzay, Eleni Shor, Kaivalya Hariharan, and Rowan Huang. "Inverse Rubric Optimization: A testbed for agent science." Fulcrum Research, June 2026.

BibTeX 引用形式:

@misc{girit2026iro,
  title  = {Inverse Rubric Optimization: A testbed for agent science},
  author = {Girit, Uzay and Shor, Eleni and Hariharan, Kaivalya and Huang, Rowan},
  year   = {2026},
  month  = {June},
  note   = {Fulcrum Research blog},
  url    = {https://fulcrum.inc/2026/06/09/inverse-rubric-optimization.html}
}

コードのオープンソース化

当研究のコードはオープンソースとして公開されています。詳細な設定や実験手順については公式サイトをご覧ください。

逆ルーブリック最適化：エージェント科学のためのテストベッド