
2026/03/17 5:59
MistralがLeanstralをリリース --- (※「Leanstral」はそのまま固有名詞として扱います。)
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
Leanstral は Lean 4 専用に設計された最初のオープンソースコードエージェント であり、Apache 2.0 ライセンスの下でリリースされ、重みファイルをダウンロードできるほか、一時的な無料 API エンドポイント(
labs-leanstral-2603)と公開された技術レポートがあります。このモデルは 証明工学タスクに最適化された非常にスパースな 6 B‑パラメータアーキテクチャ を採用し、Lean を完璧な検証器として活用した並列推論を実現しています。モデルは lean‑lsp‑mcp データセット 上で訓練されており、Mistral Vibe 経由で任意の Model‑Composed Pipelines(MCP)をサポートします。
FLTEval で評価すると—FLT プロジェクトにおける形式的証明の完了と新概念の定義をベンチマークし、単独の数学問題ではなく実際のタスクを測定する—Leanstral‑120B‑A6B は pass@2 スコア 26.3 と pass@4 スコア 29.3 を達成し、GLM5‑744B‑A40B(≈16–20)や Kimi‑K2.5‑1T‑32B よりも優れた性能を示しています。Claude 系列モデルと比較すると、Leanstral は $36 で pass@2 スコア 26.3 を達成し、Sonnet の $549(スコア 23.7)に対して同等の性能です。また pass@16 スコア 31.9 が $531 で得られ、Sonnet の $8,031.9 と比較しても大幅に低価格です。Claude Opus 4.6 モデルは依然として最高品質ですが、$1,650 という価格は Leanstral の同等スコア時の費用の約 90 倍以上になります。
実際のケーススタディでは、その実用性が示されています:
- Lean 4.29.0‑rc6 の破壊的変更を診断し、
とdef
間の定義等価性問題を特定して正しい修正案を提示し、ユーザーに説明しました。abbrev - Princeton の CS 441 コースから Rocq 定義を Lean に変換し、カスタム記法を扱い、証明が提供されていないプロパティも自動で証明しました。
Leanstral は Mistral Vibe に統合されており、ユーザーは
/leanstall エンドポイントを呼び出してゼロセットアップのコーディングと証明を行えます。一時的な API エンドポイント(labs-leanstral-2603)はフィードバックと観測データ収集のために利用可能です。ユーザーはモデル重みをダウンロードし、Leanstral をローカルで実行したり、Mistral Vibe にサインアップして完全なドキュメントへアクセスすることもできます。
この軽量かつコスト効果の高いツールは、開発者や研究者が形式的検証ワークフローを加速させるために活用でき、コミュニティへの貢献と学術界および産業界での広範な採用を促進します。
本文
AI エージェントはコード生成において非常に高い性能を示しています。しかし、先端研究数学からミッションクリティカルなソフトウェアまでのハイステークス領域へとモデルを押し上げるにつれて、人間によるレビューというスケーリングボトルネックが顕在化します。手動で検証するために必要な時間と専門知識は、エンジニアリング速度の主要な障壁となっています。
私たちは、タスクを実行すると同時に厳密な仕様に対して実装を正式に証明できるより有用なコード生成エージェントの構想を描いています。機械が生成したロジックをデバッグする代わりに、人間は「何を望むか」を指示します。本日は、そのビジョンへの最初の大きな一歩を踏み出しました。
Leanstral のご紹介
Leanstral は、Lean 4 向けに設計された最初のオープンソースコードエージェントです。
- Lean 4 は、perfectoid 空間などの複雑な数学的対象や Rust フラグメントのプロパティといったソフトウェア仕様を表現できる証明支援ツールです。
- 既存の証明システムは大規模汎用モデルをラッパーとして使用したり、単一の数学問題に焦点を当てたりするのに対し、Leanstral は高速(6 B 活性パラメータ)で実際的な形式リポジトリで動作するよう設計されています。
オープンでアクセス可能
- Leanstral の重みは Apache 2.0 ライセンスの下で公開され、Mistral Vibe 内のエージェントモードおよび無料 API エンドポイントから利用できます。
- さらに、トレーニング手法を詳細に説明した技術報告書と、新しい評価スイート FLTEval を公開し、競争数学だけでなく実際の証明エンジニアリングへの評価へと移行します。
効率的かつ強力
- Leanstral は高度に疎な構造を採用しており、証明工学タスク向けに最適化されています。
- Lean を完璧な検証器として並列推論を活用することで、Leanstral は既存のクローズドソース競合他社よりも性能とコスト効率が高いです。
MCP でアップグレード可能
- Leanstral は Vibe を介して任意の MCP をサポートし、頻繁に使用される
と最大限のパフォーマンスを発揮するよう特別にトレーニングされています。lean-lsp-mcp
評価
実際の証明工学シナリオでの有用性を反映させるため、Leanstral は FLT プロジェクトの各 PR で形式的な証明を完了し、新しい数学概念を正しく定義できるかどうかをベンチマークしました。単一の数学問題ではなく、実際にプロジェクトで使われるタスクです。主導的なコードエージェント(Claude Opus 4.6, Sonnet 4.6, Haiku 4.5)とオープンソースモデル(Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B)と比較しました。
Leanstral vs. OSS モデル
| Model | Size | Score |
|---|---|---|
| GLM5‑744B‑A40B | 744 B | ~16.6 |
| Kimi‑K2.5‑1T‑32B | 1 T | ~20.1 |
| Qwen3.5‑397B‑A17B | 397 B | 25.4 (4 passes) |
| Leanstral‑120B‑A6B | 120 B | 26.3 (pass@2), 29.3 (pass@4) |
Leanstral は単一パスでより大きなオープンソースモデルを上回り、線形にスケールしつつ同じコストレベルで 29.3 を達成します。
Leanstral vs. Claude 系列
| Model | Cost ($) | Score |
|---|---|---|
| Haiku | 18 | 23.0 |
| Sonnet | 549 | 23.7 |
| Opus | 1,650 | 39.6 |
| Leanstral | 182 | 21.9 |
| Leanstral pass@2 | – | 26.3 |
| Leanstral pass@4 | – | 29.3 |
| Leanstral pass@8 | – | 31.0 |
| Leanstral pass@16 | – | 31.9 |
価格のわずか 1/10 に対して、Leanstral の pass@2 スコア(26.3)は Sonnet を 2.6 ポイント上回り、費用は $36 で済みます。pass@16 では Sonnet を 8 ポイント差で優位に立ちます。
ベンチマークには Mistral Vibe をスキャフォールドとして使用し、評価のために特別な変更は行っていません。
ケーススタディ
最新 Lean バージョンの変更に関する StackExchange の質問への回答
新しい Lean リリースで破壊的変更が生じると、マイグレーション作業は大変です。Proof Assistants Stack Exchange から、Lean 4.29.0‑rc6 でコンパイルが停止したスクリプトに関する実際の質問を Leanstral に投入しました(当時はまだ学習対象外でした)。原因は
rw タクティックが単純な型エイリアス(def T2 := List Bool)を含むパターンと一致できなくなることにありました。
Leanstral は失敗環境を再現するテストコードを生成し、定義的等価性の問題を診断しました。
def が硬直した定義であるため rw タクティックが必要な構造を見えなくしていたことを特定し、解決策として def を abbrev に置き換えるよう提案しました。abbrev は透明エイリアスで即座に等価になるため、rw タクティックが (L2 n).length というパターンを再び正しくマッチできるようになりました。Leanstral は作業を完了し、その根拠もユーザーへわかりやすく説明しました。
プログラムの推論
Rocq の https://www.cs.princeton.edu/courses/archive/fall10/cos441/sf/Imp.html から定義をコピーし、Lean に変換するよう Leanstral を依頼しました。成功裏に実装され、カスタム記法も導入されました(例スニペットは省略)。さらに、Rocq の宣言のみ(証明なし)でプログラムの性質を Lean へ翻訳し、その後証明できることも確認しました。
はじめに
- 今すぐ Leanstral を試す – Leanstral は今日から誰でも利用可能です。
- Mistral Vibe でゼロセットアップ – Mistral Vibe に直接統合して、即座にコードと証明を行えます。
コマンドで開始してください。/leanstall - Labs API – 無料/低価格の API エンドポイント
からモデルへアクセスできます。このエンドポイントは限定期間中に高いアクセシビリティを保ち、次世代の検証済みコードモデル開発に向けたリアルなフィードバックと観測データを収集します。labs-leanstral-2603 - 重みを自前で管理 – Apache 2.0 ライセンスの下で重みをダウンロードし、ご自身の環境で実行可能です。
- ドキュメント – Mistral Vibe にサインアップして、完全なドキュメントとサポートへアクセスしてください。