
2026/07/04 7:33
Leanstral 1.5:全データに対する証明の豊富さを実現
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Leanstral 1.5 は、60 億のアクティブパラメータと全パラメータとして 1190 億を持ち、競合製品のごく一部のコストで最先端のパフォーマンスを達成する無料の Apache-2.0 ライセンスモデルです。このモデルは miniF2F でサチュレーション(検証セットとテストセットで両方 100%)を達成し、PutnamBench の問題のうち 672 問中 587 問を解決します(25k トークンの予算では 44 問から、4M トークンの予算では 587 問へ向上)。FATE-H ベンチマークでは 87% の精度、FATE-X ベンチマークでは 34% の精度を達成しています。中学習(mid-training)、監督微調整、CISPO を用いた強化学習、特定の定理に対する安全性チェックを経て訓練された Leanstral 1.5 は、複数回のターンにわたる定理証明および生ファイルシステムでのコードエージェントにおけるエージェント型証明工学において卓越しています。ターゲットとなる定理のリストを用いて SafeVerify のフォーク版で検証され、このモデルは問題あたり約 $4 のコストがかかります(Seed-Prover の $300 以上や Aleph Prover の $54–68 に比べて著しく低く)、かつ大きなトークン予算と共によくスケーリングします。実際の運用では、オープンソースライブラリにおける微細なバグを検出し、57 リポジトリにわたって以前に知られていなかった 5 つのバグを発見しました。その例として、datrs/varinteger ライブラリにおいて
(value + 1) が Std.U64.MAX 入力に対してオーバーフローした整数オーバーフローがありました。このモデルは Hugging Face で重みファイルおよび無料の API エンドポイント(leanstral-1-5)として利用可能です。ユーザーは Mistral Vibe(uv tool install mistral-vibe)で実行でき、Lean LSP MCP の設定をオプションで行うことで、その能力を活用し、高次の定理証明やバグ探索を行えるようにしながら、莫大なコストなしに動作させられます。本文
Leanstral 1.5:形式化検証のためのオープンソースモデル発表
概要
Apache-2.0 ライセンスの下で提供される、6B の有効パラメータ数を持つオープンソースモデルです。Lean 4 における証明工学への開放的で実践的なアプローチを提供します。
- 総パラメータ数: 119B
- 有効パラメータ数: 6B
- 特徴: 形式化検証のパフォーマンスが飛躍的に向上し、強力かつアクセス可能となっています。
パフォーマンスのハイライト
形式化検証における新たな State-of-the-Art(業界最高成績)を達成しました。
- miniF2F: 完走(飽和状態)。
- PutnamBench: 672 問中587 問の解決に成功。
- FATE-H: **87%**のスコア。
- FATE-X: **34%**のスコア。
- バグ発見: 57 リポジトリの中から、5 つの未報告のバグを発見。
モデルは完全なオープンソース化され、Hugging Faceや無料の APIを通じて利用可能です。これにより、Lean 4 における実践的な証明工学へのアクセス性がさらに高まっています。
学習プロセス
ミッドトレーニング、強化学習による最適化(SFT)、CISPO を用いた強化学習の3 つの段階を経て学習が行われます。
1. マルチターン環境
モデルに対し定理の声明を提示し、証明または反証を求めます。
- フィードバック受領: モデルは証明を提出し、Lean コンパイラーからのフィードバックを受け、各試行でアプローチを改善します。
- ループ処理: 証明がコンパイルに失敗した場合はループを繰り返し、問題検出または予算終了まで続行されます。
2. コーディングエージェント環境
ローファイルシステム上の「開発者」として動作し、以下のタスクに対応します。
- ファイル編集や bash コマンドの実行を行います。
- Lean ランタイムサーバーを活用し、ゴール、エラー、型情報を実時間で確認します。
- 部分的証明の完了や補助的な命題(レマ)の構築など、長期的な文脈圧縮タスクが可能です。
本モデルはフルな証明工学のワークフローを習得し、最終的に SafeVerify 派生版を用いて正解性の検証を受けています。
ベンチマーク評価結果
複数のベンチ마크で評価され、以下の結果が得られました。
主要ベンチマークスコア
| ベンチマーク | 内容概要 | スコア / 結果 |
|---|---|---|
| miniF2F | 代数学・組合せ論など多様な能力を網羅するクロスシステムベンチマーク | validation とテストセット双方で 100%(完全飽和) |
| PutnamBench | プツナム数学競技会問題を対象とする深層推論ベンチマーク | 672 問中 587 問解決 |
| FATE-H | 群論・環理論など高度な抽象代数学(修士/博士レベル) | 87%(新記録) |
| FATE-X | 同様に高度な推論力を試すベンチマーク | 34%(新記録) |
比較結果とコストパフォーマンス
- 費用対効果: Seed-Prover 1.5(高設定)よりも約**$4/問題の低コストで、さらに7 問多く**解決します。
- 対象となる Goedel-Architect、AxProverBase 等との比較でも優位です。
- スケーリング性能:
- トークン予算増加に伴い滑らかかつ単調に向上します。
- 50k トークン: 44 問解決
- 200k トークン: 244 問解決
- 1M トークン: 493 問解決
- 4M トークン: 587 問解決(Pass@8)
FLTEval ベンチマークにおける進歩
数百万のトークンを消費して推論・ファイル編集・再修正を行うことで、以下のような改善が確認されました。
- pass@1: 21.9 から 28.9 に向上
- pass@8: 31.9 から 43.2 に向上
- Opus 4.6 を上回り、その七分の一のコストで同様の結果を達成。
- オープンソースモデル(3〜10 倍の規模)との性能差がさらに拡大。
コーダー化検証ケーススタディ
数学学習に特化したほか、コード検証においても高い能力を発揮します。
1. AVL ツリー:計算量保証の証明
自己平衡二分探索木の O(log n) の高さを維持するための計算量保証を証明しました。
- 手法: 構造的帰納法、モノイド時間追跡の慎重な扱い、ケース分析を用いています。
- プロセス: 270 万トークンと 22 コンパクション(コンパクシオン)を通じて、TimeM モナドの展開や制御フローの相互干渉下での計算を浮き彫りにしました。
- 結果: 挿入ステップ数の上界として高さに比例した厳密な式を確立し、O(log n) の保証を完全に検証。
2. バグ発見:隠れた欠陥の検出
Aeneas と連携し、Rust コードを Lean に変換し、Leanstral が命題を生成・証明を試みるパイプラインを作成しました。
- 手法:
- 正解証明を試行(4 回)。失敗時は否定形の証明を試行(4 回)。
- 結果:
- 57 リポジトリから47 つの違反命題をフラッグ付け。
- そのうち 11 つが本物のバグで、その内 5 つは未報告だった。
- 具体例 (
):datrs/varinteger- 「ジグザグデコード」機能の符号関数にバグを発見。
入力時においてStd.U64.MAX
がオーバーフローし、クラッシュまたはサイレントな破損を引き起こすことを検出。(value + 1)- これは従来のテストやファジングでは見過ごされがちなエッジケースです。
はじめよう
Apache-2.0 ライセンスにより利用可能です。
入手方法
- ウェイト: Hugging Face で公開。
- API: 無料エンドポイント
(Mistral Vibe を推奨)。leanstral-1-5
セットアップ手順
1. Mistral Vibe のセットアップ
uv tool install mistral-vibe uv tool update mistral-vibe vibe --setup
2. Leanstral 1.5 のインストール
(具体的なコマンドは環境設定に依存します)
3. エージェントの起動
準備ができたらエージェントを起動します。
4. Lean LSP MCP のインストール(オプション)
~/.vibe/config.toml に以下の設定を追加して、開発者体験を向上させます:
[[mcp_servers]] name = "lean-lsp" transport = "stdio" command = "uvx" args = ["lean-lsp-mcp"] tool_timeout_sec = 600
注記: 既存の MCP サーバーがない場合は
を削除する必要があります。mcp_servers = []
5. 証明を開始
以下のいずれかの指示を Leanstral に与えます:
- 定理の挑戦を受け入れる。
- 証明のデバッグを頼む。
- リポジトリへの貢献を提案する。
これで完了です。