LLM(大規模言語モデル)を委任対象とした場合、そのドキュメントが腐敗する可能性があります。

2026/05/09 17:44

LLM(大規模言語モデル)を委任対象とした場合、そのドキュメントが腐敗する可能性があります。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

現在の大規模言語モデルは、複雑な作業フロー中に信頼性の低い受託者として振る舞い、正確な編集を命じられても文書に静かに損傷をもたらす。コーディング、音楽記譜法、結晶学などの 52 の専門分野にわたる長期タスクをシミュレートする「DELEGATE-52」基準を導入した主要な研究では、高度なモデルがデータ完全性を維持できないことが明らかになった。19 の LLM を含む大規模実験において、先端的なモデル(例:Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)は、多段階プロセス終了時点で文書内容の約 25% に影響を与える誤りを導入し、その他のモデルはさらに劣るパフォーマンスを発揮した。平均的にこれらのエージェントは、長期ワークフローで文書内容のほぼ四分の一を損傷させ、この劣化はファイルサイズが大きくなるほど、相互作用時間が長くなるほど、または紛らわしいファイルが存在する場合に悪化する。重要なのは、代理ツールを使用しても DELEGATE-52 におけるパフォーマンスが向上しないことだ。信頼できるアシスタントとして機能する代わりに、現在のモデルは時間経過とともにミスを積み重ね、脆い助っ人のように振る舞い、委託作業の期待(「vibe coding」などの新興のパラダイムを含む)を損なう。その結果、完全に自動化された文書処理に依存する組織は、静かに蓄積する高コストで検知されない誤りに直面するリスクにある。将来、こうしたタスクに LLM を展開するには、義務的な人間の検証ステップの導入や、長期の委託中に静かな損傷を防止するために構築された新しいアーキテクチャ設計が求められる可能性が高い。

本文

PDF と HTML(実験的)の要約:大規模言語モデル(LLM)は知識業務を大きく変革する可能性があり、委任された仕事という新たなインタラクションのパラダイム(例えば、「バイブコーディング」など)が登場しています。委任を行うには信頼性が不可欠です。つまり、LLM が文書に誤りを導入することなく忠実にタスクを実行してくれることを期待している必要があります。本研究では、委任されたワークフローにおける AI システムの準備状況を調べるために「DELEGATE-52」というベンチマークを導入しました。DELEGATE-52 は、コーディング、結晶学、楽譜記法等の 52 の専門分野にわたる、文書全体の深い編集を必要とする長期的な委任ワークフローをシミュレートします。19 つの LLM による大規模な実験により、現在のモデルは委任下で文書を劣化させることが判明しました。特に最先端モデル(Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4 など)でも、長期的なワークフローの終了時点で平均して文書の 25% が腐敗し、他のモデルではさらに深刻な劣化が見られました。追加の実験からは、エージェント的なツールの利用が DELEGATE-52 のパフォーマンスを改善することはなく、文書サイズやインタラクション期間の長さ、あるいはノイズとなるファイルの有無が劣化の重症度を悪化させることが示されました。われわれの分析では、現在の LLM は信頼性のある委任先とは言えず、文書を静かに腐敗させる希薄かつ深刻な誤りを導入し、それが長いインターアクションを通じて累積していくという問題を抱えていると結論付けられます。提出履歴:Philippe Laban [メールを見る] [v1] 2026 年 4 月 17 日(金)00:33:32 UTC(9,982 KB)

同じ日のほかのニュース

一覧に戻る →

2026/05/09 21:00

スイス・インターネット・アーカイブ

## Japanese Translation: インターネット・アーカイブは、デジタル保存とすべての知識への普遍的アクセスというミッションを設立者ブルースター・カールが 30 年前に定めた、独立した非営利財団としてスイスのセント・ガレンに本部を置く「Internet Archive Switzerland」を立ち上げました。このハブは、カナダやヨーロッパなどを含むグローバルネットワーク内で活動し、セント・ガレンに千年以上の学術的アーカイビングとイノベーションの伝統を持つことを活用して、レジリエントな地域図書館を創出します。初期の取り組みでは、危機にあるグローバルなアーカイブを保存すること、および現在の生成 AI の波に関連するデジタルコンテンツを収集することに注力します。重要なパートナーシップとして、ダミアン・ボース教授を率いるセント・ガレン大学工学部のコンピューターサイエンス学科との連携により、急速に進化する AI モデル向けの基準を確立する専門的な「Gen AI Archive」を設立します。これらの取り組みはさらに発展し、2026 年 11 月にパリで開催予定のユネスコ会議において、危機にあるアーカイブに対する保護方法について議論される予定です。実行責任者であるローマン・グリースフェルダー氏は、セント・ガレンが文化遺産に関して「安定性とイノベーションは両輪」と述べ、ユニークに安定性とイノベーションのバランスを維持していると指摘します。新しい財団は、より広範なグローバル使命に奉仕する地元のデジタル歴史保存にとって強力な先例を設定します。詳細は https://internetarchive.ch/ でアクセス可能です。 ## Text to translate: The Internet Archive has launched Internet Archive Switzerland, a new independent non-profit foundation based in St. Gallen dedicated to digital preservation and universal access to all knowledge—a mission established by founder Brewster Kahle 30 years ago. Operating within a global network that includes Internet Archive Canada and Europe, this hub leverages St. Gallen's thousand-year tradition of scholarly archiving and innovation to create a resilient regional library. Initial work will focus on saving endangered global archives and collecting digital content related to the current generative AI wave. A key partnership with the University of St. Gallen's School of Computer Science, led by Professor Damian Borth, will establish a specialized Gen AI Archive to set standards for rapidly evolving AI models. These efforts will be further explored at a UNESCO conference in November 2026 in Paris regarding protection methods for endangered archives. Executive Director Roman Griesfelder notes that St. Gallen uniquely balances stability with innovation, stating, "stability and innovation go hand in hand" regarding cultural heritage. The new foundation sets a powerful precedent for local digital history preservation serving a broader global mission, accessible at https://internetarchive.ch/.

2026/05/10 2:52

Show HN: Go で作成した、Clojure に似た言語を公開します。起動までの時間はわずか 7 ミリ秒です。

## Japanese Translation: Let-go は、Clojure に類似する言語のために設計されたバイトコードコンパイラおよび仮想マシンであり、同ファミリー内で最小で最も起動が速い選択肢を目指しています。コードを外部インフラストラクチャなしで動作するスタンドアロンのバイナリまたは WebAssembly アプリケーションに直接コンパイルします。主要なパフォーマンス指標には、約 10MB のバイナリサイズ、約 6-7ms のコールドスタート、低いアイドルメモリ使用量(約 14MB)が含まれ、これにより Babashka、GraalVM native、Joker、標準的な JVM 環境と比較して著しく小さく高速化しています。 このツールは、`core`、`core.async`、HTTP、JSON などのほぼすべてのコア Clojure ライブラリ(マクロ、プロトコル、トランスデューサー、永続データ構造など)をサポートし、標準的な `clojure-test-suite` の 95.4% を通過する強力な互換性を提供します。`core.async` チャンネル、HTTP サーバー、JSON/Transit、IO、およびバイナリプロトコル経由の Babashka pod の読み込み(データベース、AWS、Docker など)を含む「ボックスセット」機能をサポートしています。高度な機能としては、Go との相互運用性があり、Go アプリケーションへの埋め込みをサポートし、機能マッピングと双方向の呼び出しを可能にします。 展開オプションは柔軟です:ユーザーは Homebrew または Go モジュールを使用して自己完結型のバイナリを作成したり、ターミナルエミュレーションを含むブラウザ実行のための WebAssembly にコンパイルしたり、Emacs、VS Code、Neovim などのリッチなエディタサポートのための nREPL サーバーを利用できます。非常に効率的ですが、標準的な Clojure/Java ランタイムに見られる特定の機能(Refs/STM は atoms+channels で置き換えられ、Spec、`deftype`、読み込みタグ付きリテラル `#inst` など)は除外されています。 ## Text to translate: ## Summary: Let-go is a bytecode compiler and virtual machine for a language resembling Clojure, designed to be the smallest and fastest-starting option in the family. It compiles code directly into standalone binaries or WebAssembly applications that require no external infrastructure to run. Key performance metrics include a ~10MB binary with approximately 6-7ms cold starts and low idle memory usage (~14MB), making it significantly smaller and faster than alternatives like Babashka, GraalVM native, Joker, and standard JVM environments. The tool offers robust compatibility by supporting nearly all core Clojure libraries (including `core`, `core.async`, HTTP, JSON) and features like macros, protocols, transducers, and persistent data structures, passing 95.4% of the standard `clojure-test-suite`. It enables "batteries included" functionality with support for `core.async` channels, HTTP servers, JSON/Transit, IO, and Babashka pod loading (e.g., databases, AWS, Docker) over a binary protocol. Advanced features include Go interop, allowing embedding in Go apps with feature mapping and bidirectional calls. Deployment options are flexible: users can create self-contained binaries via Homebrew or Go modules, compile to WebAssembly for browser execution with terminal emulation, and utilize an nREPL server for rich editor support (Emacs, VS Code, Neovim). While highly efficient, it excludes certain features found in standard Clojure/Java runtimes, such as Refs/STM (replaced by atoms+channels), Spec, `deftype`, and reader tagged literals like `#inst`.

2026/05/10 6:46

リスト風の Rust

## Japanese Translation: RLisp は、Rust のパフォーマンスと安全性を享受しつつ、LISP の S 式構文の可読性をもたらすための独自のソリューションを提供します。`rustc` を介して直接ネイティブバイナリにコンパイルされるため、ランタイム環境やガーベジコレクターの使用は不要となり、所有権、借用、ライフタイム、ジェネリック、トレイト、パターンマッチングなど、Rust のコア機能を完全にサポートしています。インストールは簡単で、GitHub リポジトリをクローン(`git clone https://github.com/ThatXliner/rlisp.git`)し、`cargo install --path .` を実行するだけです。このツールには、LISP ファイルを変数化するためのコマンドラインユーティリティ(`rlisp compile`)、ビルド(`rlisp build`)、実行(`rlisp run`)が組み込まれています。開発者は非対応の機能のために生の Rust コードをそのまま使用するために `(rust "...")` フォームを採用でき、マクロは Runt のプロシージャルマクロに依存せず、`(quasiquote)`、`(unquote)`、`(unquote-splicing)` などの慣れ親しんだ LISP 構造体を利用してコンパイル時の変換を実行できます。`&rest` でキャプチャされた可変引数は `unquote-splicing` を使用してマクロ出力に平坦化できます。言語は `(while ...)`、`(loop ...)`、`(for ...)` などを含む標準制御構造と解像度付きイテレータをサポートし、型注釈を受け取る typed クロージャ(例:`((x i32) (y i32)) -> i32`)および引数を明示的に移動するための `move` キーワードを提供します。可視性修飾子は Rust の慣習に従います(`pub`、`pub(crate)`、`pub(super)`)。このプロジェクトは MIT ライセンスでリリースされており、マクロ開発を簡素化し、バランスの取れた括弧の構造的編集を可能にし、Rust セマンティクスを低い構文障壁で提供することを目的としています。