
2025/12/29 0:02
**形式手法保証のための予測可能なLLM‑検証システム設計**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
改良された要約
本稿では、マルチステージ検証パイプラインの終了を保証するLLM-Verifier収束定理を提示しています。パイプラインは CodeGen、Compilation、InvariantSynth、および SMTSolving の4段階からなる順序吸着マルコフ連鎖としてモデル化されています。任意の非ゼロステージ成功確率(δ > 0)に対して、システムはほぼ必然的に Verified 状態に到達し、遅延上限 E[n] ≤ 4/δ が導かれます。90,000件以上の実験キャンペーンで理論が確認され、すべての試行が成功裏に検証され、収束係数は Cf ≈ 1.0 の周辺に集まったことが示されています。本研究ではまた、マージナル、プラクティカル、高性能という3つの運用ゾーンを特定し、実環境でのパラメータドリフトを扱うための動的キャリブレーション戦略を提案しています。ヒューリスティックな推測ではなくこの厳密な枠組みを採用することで、安全性が重要なソフトウェアに対して予測可能なリソース計画と性能予算の設定が可能となり、過剰プロビジョニングや予期しない遅延によるコスト削減が期待できます。
本文
概要
形式検証ツールと大型言語モデル(LLM)を統合することで、ソフトウェア検証を手作業のワークフローを超えてスケーリングできる道が開かれます。しかし現行の手法は未だ信頼性に欠けており、理論的根拠が不十分なため、リファインメントプロセスはブラックボックス化しやすく、振動・ループ・発散といった挙動を示します。本研究では、この重要なギャップを埋めるべく「LLM‑Verifier Convergence Theorem(LLM検証器収束定理)」を構築し、多段階検証パイプラインにおける終了保証の初めての形式的枠組みを提供します。
我々は相互作用を単なるループではなく、
CodeGen・Compilation・InvariantSynth・SMTSolvingという四つの必須エンジニアリング段階からなる順序付き吸収マルコフ連鎖としてモデル化します。各段階が非ゼロ成功確率(δ > 0)を持つ限り、システムはほぼ確実に Verified 状態に到達することを証明しました。また、パイプラインの順序性から期待遅延の正確な上界
[ \mathbb{E}[n] \le \frac{4}{\delta} ]
を導出しています。
この予測は 90,000 件以上に及ぶ実験キャンペーンで徹底的に検証され、結果は理論と驚くほど一致しました。すべての走査が検証に到達し、経験上の収束係数 (C_f \approx 1.0) が集中的に分布しており、(4/\delta) の上界が単なる緩やかなバッファではなくシステム挙動を正確に反映することが確認されました。
データに基づき、我々は「マージナル」「実用的」「ハイパフォーマンス」という三つの運用ゾーンを定義し、実環境でのパラメータドリフトに対処するための動的校正戦略を提案します。これらの貢献はヒューリスティックな推測を厳密なアーキテクチャ基盤へと置き換え、安心性が要求されるソフトウェアにおける資源計画とパフォーマンス予算を確実に管理できるようにします。