
2026/05/09 17:44
LLM(大規模言語モデル)を委任対象とした場合、そのドキュメントが腐敗する可能性があります。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
現在の大規模言語モデルは、複雑な作業フロー中に信頼性の低い受託者として振る舞い、正確な編集を命じられても文書に静かに損傷をもたらす。コーディング、音楽記譜法、結晶学などの 52 の専門分野にわたる長期タスクをシミュレートする「DELEGATE-52」基準を導入した主要な研究では、高度なモデルがデータ完全性を維持できないことが明らかになった。19 の LLM を含む大規模実験において、先端的なモデル(例:Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)は、多段階プロセス終了時点で文書内容の約 25% に影響を与える誤りを導入し、その他のモデルはさらに劣るパフォーマンスを発揮した。平均的にこれらのエージェントは、長期ワークフローで文書内容のほぼ四分の一を損傷させ、この劣化はファイルサイズが大きくなるほど、相互作用時間が長くなるほど、または紛らわしいファイルが存在する場合に悪化する。重要なのは、代理ツールを使用しても DELEGATE-52 におけるパフォーマンスが向上しないことだ。信頼できるアシスタントとして機能する代わりに、現在のモデルは時間経過とともにミスを積み重ね、脆い助っ人のように振る舞い、委託作業の期待(「vibe coding」などの新興のパラダイムを含む)を損なう。その結果、完全に自動化された文書処理に依存する組織は、静かに蓄積する高コストで検知されない誤りに直面するリスクにある。将来、こうしたタスクに LLM を展開するには、義務的な人間の検証ステップの導入や、長期の委託中に静かな損傷を防止するために構築された新しいアーキテクチャ設計が求められる可能性が高い。
本文
PDF と HTML(実験的)の要約:大規模言語モデル(LLM)は知識業務を大きく変革する可能性があり、委任された仕事という新たなインタラクションのパラダイム(例えば、「バイブコーディング」など)が登場しています。委任を行うには信頼性が不可欠です。つまり、LLM が文書に誤りを導入することなく忠実にタスクを実行してくれることを期待している必要があります。本研究では、委任されたワークフローにおける AI システムの準備状況を調べるために「DELEGATE-52」というベンチマークを導入しました。DELEGATE-52 は、コーディング、結晶学、楽譜記法等の 52 の専門分野にわたる、文書全体の深い編集を必要とする長期的な委任ワークフローをシミュレートします。19 つの LLM による大規模な実験により、現在のモデルは委任下で文書を劣化させることが判明しました。特に最先端モデル(Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4 など)でも、長期的なワークフローの終了時点で平均して文書の 25% が腐敗し、他のモデルではさらに深刻な劣化が見られました。追加の実験からは、エージェント的なツールの利用が DELEGATE-52 のパフォーマンスを改善することはなく、文書サイズやインタラクション期間の長さ、あるいはノイズとなるファイルの有無が劣化の重症度を悪化させることが示されました。われわれの分析では、現在の LLM は信頼性のある委任先とは言えず、文書を静かに腐敗させる希薄かつ深刻な誤りを導入し、それが長いインターアクションを通じて累積していくという問題を抱えていると結論付けられます。提出履歴:Philippe Laban [メールを見る] [v1] 2026 年 4 月 17 日(金)00:33:32 UTC(9,982 KB)