
2026/02/17 6:15
研究:自己生成型エージェントスキルは役に立たない (Note: This translation preserves the original meaning and maintains a natural, polite tone in Japanese.)
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
現在の要約は主要な発見とほぼすべての定量的詳細を捉えていますが、キュレーションされたスキルで影響を受けたタスク数を正確に追加し、著者数を修正することでさらに簡潔にできます。以下は若干改訂したバージョンです:
要約:
SkillsBench は 11 ドメインにわたる 86 タスクで大規模言語モデル(LLM)を評価し、「スキル」(事前定義された手順のステップ)がパフォーマンスに与える影響を測定するベンチマークです。キュレーションされたスキルが追加されると、平均合格率は「スキルなし」時より 16.2 pp 上昇します。効果は大きく異なり、ソフトウェアエンジニアリングでは +4.5 pp、ヘルスケアでは +51.9 pp に達します。実際に 84 タスクのうち 16 件がキュレーションされたスキルでマイナスの差分を示し、自身生成したスキルは全体として有益ではなく、モデルが消費する手順知識を信頼して作成できないことを示しています。わずか 2〜3 のスキルモジュールだけで完全なドキュメントよりも優れた性能を発揮し、これらのスキルを備えた小型モデルはそれらを持たない大型モデルと同等に競合できます。このベンチマークは 7,308 の対話軌跡で 7 つのエージェント–モデル構成をテストします。著者は複数機関からなる 38 人の研究者チームで、2026 年 2 月 13 日に公開され(ファイルサイズ 1,366 KB)、今後は最も効果的なスキルを選択してより効率的かつドメイン特化型 AI エージェントを構築する研究が進められることが示唆されています。
本文
著者:
李翔毅、陳文博、劉義民、鄭勝翰、陳小昆、何一鳴、李玉波、游冰然、沈昊天、孫建凱、王淑儀、曾群宏、王迪、趙宣東、王元利、本チャイム・ロエイ、地宗麟、高怡彭、何俊偉、何一卓、靜麗亮、孔驍陽、蘭欣、李嘉辰、李松林、李亦江、林月倩、劉心怡、劉宣卿、陸浩然、馬澤、王博威、王潤輝、王天宇、葉文高、張月、星漢雲、薛以奇、史蒂文・ディルマン、李漢成
要旨:
エージェントスキルは、手続き知識の構造化パッケージであり、推論時にLLM(大規模言語モデル)エージェントを強化します。急速に採用が進む一方で、実際に効果があるかどうかを測定する標準的な方法は存在しません。本研究では SkillsBench を提示します。これは 11 のドメインにわたる 86 個のタスクと、それぞれに対してキュレーションされたスキルおよび決定論的検証器を組み合わせたベンチマークです。各タスクは、(1)スキルなし、(2)キュレーション済みスキルあり、(3)自己生成スキルありの 3 条件で評価されます。7,308 のトラジェクトリにわたり 7 種類のエージェント・モデル構成をテストしました。キュレーションされたスキルは平均パス率を 16.2 パーセントポイント(pp) 向上させますが、ドメインごとに効果は大きく異なり(ソフトウェア工学で +4.5 pp、医療分野で +51.9 pp)、84 個のタスク中 16 個ではマイナスの差が観測されました。自己生成されたスキルは平均して効果を示さず、モデルが消費から得る利益に相当する手続き知識を信頼できる形で自ら作成できないことを示しています。2〜3 モジュールの集中型スキルは包括的なドキュメントよりも優れ、スキル付きの小規模モデルがスキルなしの大規模モデルに匹敵する性能を発揮します。
提出履歴:
送信者: 李翔毅 [メールを見る] [v1] 2026年2月13日 金曜日 07:06:06 UTC(1,366 KB)