Leanstral 1.5:全データに対する証明の豊富さを実現

2026/07/04 7:33

Leanstral 1.5:全データに対する証明の豊富さを実現

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Leanstral 1.5 は、60 億のアクティブパラメータと全パラメータとして 1190 億を持ち、競合製品のごく一部のコストで最先端のパフォーマンスを達成する無料の Apache-2.0 ライセンスモデルです。このモデルは miniF2F でサチュレーション(検証セットとテストセットで両方 100%)を達成し、PutnamBench の問題のうち 672 問中 587 問を解決します(25k トークンの予算では 44 問から、4M トークンの予算では 587 問へ向上)。FATE-H ベンチマークでは 87% の精度、FATE-X ベンチマークでは 34% の精度を達成しています。中学習(mid-training)、監督微調整、CISPO を用いた強化学習、特定の定理に対する安全性チェックを経て訓練された Leanstral 1.5 は、複数回のターンにわたる定理証明および生ファイルシステムでのコードエージェントにおけるエージェント型証明工学において卓越しています。ターゲットとなる定理のリストを用いて SafeVerify のフォーク版で検証され、このモデルは問題あたり約 $4 のコストがかかります(Seed-Prover の $300 以上や Aleph Prover の $54–68 に比べて著しく低く)、かつ大きなトークン予算と共によくスケーリングします。実際の運用では、オープンソースライブラリにおける微細なバグを検出し、57 リポジトリにわたって以前に知られていなかった 5 つのバグを発見しました。その例として、datrs/varinteger ライブラリにおいて

(value + 1)
Std.U64.MAX
入力に対してオーバーフローした整数オーバーフローがありました。このモデルは Hugging Face で重みファイルおよび無料の API エンドポイント(leanstral-1-5)として利用可能です。ユーザーは Mistral Vibe(
uv tool install mistral-vibe
)で実行でき、Lean LSP MCP の設定をオプションで行うことで、その能力を活用し、高次の定理証明やバグ探索を行えるようにしながら、莫大なコストなしに動作させられます。

本文

Leanstral 1.5:形式化検証のためのオープンソースモデル発表

概要

Apache-2.0 ライセンスの下で提供される、6B の有効パラメータ数を持つオープンソースモデルです。Lean 4 における証明工学への開放的で実践的なアプローチを提供します。

  • 総パラメータ数: 119B
  • 有効パラメータ数: 6B
  • 特徴: 形式化検証のパフォーマンスが飛躍的に向上し、強力かつアクセス可能となっています。

パフォーマンスのハイライト

形式化検証における新たな State-of-the-Art(業界最高成績)を達成しました。

  • miniF2F: 完走(飽和状態)。
  • PutnamBench: 672 問中587 問の解決に成功。
  • FATE-H: **87%**のスコア。
  • FATE-X: **34%**のスコア。
  • バグ発見: 57 リポジトリの中から、5 つの未報告のバグを発見。

モデルは完全なオープンソース化され、Hugging Face無料の APIを通じて利用可能です。これにより、Lean 4 における実践的な証明工学へのアクセス性がさらに高まっています。


学習プロセス

ミッドトレーニング、強化学習による最適化(SFT)、CISPO を用いた強化学習の3 つの段階を経て学習が行われます。

1. マルチターン環境

モデルに対し定理の声明を提示し、証明または反証を求めます。

  • フィードバック受領: モデルは証明を提出し、Lean コンパイラーからのフィードバックを受け、各試行でアプローチを改善します。
  • ループ処理: 証明がコンパイルに失敗した場合はループを繰り返し、問題検出または予算終了まで続行されます。

2. コーディングエージェント環境

ローファイルシステム上の「開発者」として動作し、以下のタスクに対応します。

  • ファイル編集や bash コマンドの実行を行います。
  • Lean ランタイムサーバーを活用し、ゴール、エラー、型情報を実時間で確認します。
  • 部分的証明の完了や補助的な命題(レマ)の構築など、長期的な文脈圧縮タスクが可能です。

本モデルはフルな証明工学のワークフローを習得し、最終的に SafeVerify 派生版を用いて正解性の検証を受けています。


ベンチマーク評価結果

複数のベンチ마크で評価され、以下の結果が得られました。

主要ベンチマークスコア

ベンチマーク内容概要スコア / 結果
miniF2F代数学・組合せ論など多様な能力を網羅するクロスシステムベンチマークvalidation とテストセット双方で 100%(完全飽和)
PutnamBenchプツナム数学競技会問題を対象とする深層推論ベンチマーク672 問中 587 問解決
FATE-H群論・環理論など高度な抽象代数学(修士/博士レベル)87%(新記録)
FATE-X同様に高度な推論力を試すベンチマーク34%(新記録)

比較結果とコストパフォーマンス

  • 費用対効果: Seed-Prover 1.5(高設定)よりも約**$4/問題の低コストで、さらに7 問多く**解決します。
    • 対象となる Goedel-Architect、AxProverBase 等との比較でも優位です。
  • スケーリング性能:
    • トークン予算増加に伴い滑らかかつ単調に向上します。
    • 50k トークン: 44 問解決
    • 200k トークン: 244 問解決
    • 1M トークン: 493 問解決
    • 4M トークン: 587 問解決(Pass@8)

FLTEval ベンチマークにおける進歩

数百万のトークンを消費して推論・ファイル編集・再修正を行うことで、以下のような改善が確認されました。

  • pass@1: 21.9 から 28.9 に向上
  • pass@8: 31.9 から 43.2 に向上
  • Opus 4.6 を上回り、その七分の一のコストで同様の結果を達成。
  • オープンソースモデル(3〜10 倍の規模)との性能差がさらに拡大。

コーダー化検証ケーススタディ

数学学習に特化したほか、コード検証においても高い能力を発揮します。

1. AVL ツリー:計算量保証の証明

自己平衡二分探索木の O(log n) の高さを維持するための計算量保証を証明しました。

  • 手法: 構造的帰納法、モノイド時間追跡の慎重な扱い、ケース分析を用いています。
  • プロセス: 270 万トークンと 22 コンパクション(コンパクシオン)を通じて、TimeM モナドの展開や制御フローの相互干渉下での計算を浮き彫りにしました。
  • 結果: 挿入ステップ数の上界として高さに比例した厳密な式を確立し、O(log n) の保証を完全に検証。

2. バグ発見:隠れた欠陥の検出

Aeneas と連携し、Rust コードを Lean に変換し、Leanstral が命題を生成・証明を試みるパイプラインを作成しました。

  • 手法:
    • 正解証明を試行(4 回)。失敗時は否定形の証明を試行(4 回)。
  • 結果:
    • 57 リポジトリから47 つの違反命題をフラッグ付け。
    • そのうち 11 つが本物のバグで、その内 5 つは未報告だった。
  • 具体例 (
    datrs/varinteger
    )
    :
    • 「ジグザグデコード」機能の符号関数にバグを発見。
    • Std.U64.MAX
      入力時において
      (value + 1)
      がオーバーフローし、クラッシュまたはサイレントな破損を引き起こすことを検出。
    • これは従来のテストやファジングでは見過ごされがちなエッジケースです。

はじめよう

Apache-2.0 ライセンスにより利用可能です。

入手方法

  • ウェイト: Hugging Face で公開。
  • API: 無料エンドポイント
    leanstral-1-5
    (Mistral Vibe を推奨)。

セットアップ手順

1. Mistral Vibe のセットアップ

uv tool install mistral-vibe
uv tool update mistral-vibe
vibe --setup

2. Leanstral 1.5 のインストール

(具体的なコマンドは環境設定に依存します)

3. エージェントの起動

準備ができたらエージェントを起動します。

4. Lean LSP MCP のインストール(オプション)

~/.vibe/config.toml
に以下の設定を追加して、開発者体験を向上させます:

[[mcp_servers]]
name = "lean-lsp"
transport = "stdio"
command = "uvx"
args = ["lean-lsp-mcp"]
tool_timeout_sec = 600

注記: 既存の MCP サーバーがない場合は

mcp_servers = []
を削除する必要があります。

5. 証明を開始

以下のいずれかの指示を Leanstral に与えます:

  1. 定理の挑戦を受け入れる。
  2. 証明のデバッグを頼む。
  3. リポジトリへの貢献を提案する。

これで完了です。

同じ日のほかのニュース

一覧に戻る →

2026/07/04 7:40

巨大な木は問題なく水を上枝に送ることができます。

## Japanese Translation: エクセター大学とカーディフ大学が主導する新研究で、Science誌に発表された内容により、世界最高位の熱帯ティトロカルプ属(Dipterocarp)の樹木は、極めて高い位置での水分輸送課題を完全に補償できることが明らかになった。アジアの雨林を支配し、80 メートルを超える高さまで成長する巨大なティトロカルプ属の木々は、より低い木々に比べて旱魃に対する感受性を示さない。これは進化した水理学的適応によるものである。本研究は、2023 年~2024 年の激しいエルニーニョ現象を背景としてマレーシア・ボルネオで行われたものであり、7 メートルから 71 メートルの幅を持つ樹木が旱魃を通じて幹の成長速度を維持したことが見出された。これは、重力と導管の長さが高大型種における光合成および成長を制限するという長年の信念に挑戦するものである。より高いティトロカルプ属の木々は、地面付近で広く水分を運ぶ導管を持つことと、萎れる前により大きな水ストレスに耐えるように適応した葉を持つことによりこれを実現する。これらの適応は、80 メートル以上高く水を移動させるために必要な極めて低い圧力の下でも液体水の形態を維持することを可能にする。これらの結果は、特にアジアの地上バイオマス炭素の半分を貯蔵するティトロカルプ属森林において重要であり、水理学的システムが弱く高大型種では旱魃による急速な死に瀕するという以前の理論を矛盾させるものである。共同著者であるパウロ・ビッテンコート博士は、これらの希少樹木がマレーシア・ボルネオにおける生態学的中心性であることを強調しているが、研究者らは同様の特性を他の高大型樹種においても検討すべきであると指摘している。研究チームには、マレーシア、イギリス、チェコ共和国、ドイツ、スペイン、ブラジル、アメリカ合衆国の機関が含まれており、資金供与は自然環境研究評議会(NERC)からのものである。今後の研究では、ティトロカルプ属を超えた水理学的システムと旱魃耐性の調査を通じて、全球的な旱魃リスク評価および保全戦略を精査していく予定である。

2026/07/04 6:49

AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成

## Japanese Translation: AMD の新しい Instinct MI355X アクセラレータは、NVIDIA の B シリーズ GPU に対して魅力的な代替手段を提供しており、B300 と比較して約 2.75 倍安い GPU 単価で同様のハードウェア仕様を備えています。また、B200 には 2 倍以上安いです。歴史的に CUDA エコシステムを通じて「day-0」の優位性を保持してきた NVIDIA ですが、AMD はこの格差を急速に縮めています。ROCm は当初、MI355X 上で GLM-5.2 のような frontier モデルに対してネイティブなサポートがなかったものの、ターゲットされた最適化によって B200 のノードあたり性能の約 80% を対価の少なさで実現しました。主要なブリークスルーとしては、AMD Quark を用いて損失のない MXFP4 量子化を実現し(公式の FP8 の制限を上回る)、出力劣化を伴わずに堅牢なネイティブ MXFP4 サポートのために sglang を選択し、モジュールプレフィックス不一致を修正したり、ROCm メタデータ カーネルガードを追加したりする特定のパッチを適用することで推測デコーディングの利点を解放(約 3 倍)した点があります。戦略的な構成チューニング(例えば TP4×DP2 への移行)や fp4 シェイプ用の MoE カーネルの最適化を通じて、カスタムカーネルを書かずにシングルノードデプロイメントで 2626 tok/s/node という SOTA の総通量を実現しました。この戦略は推論ワークロードに対して有効であり、AMD が NVIDIA の市場的地利を成功裏に侵食し、低コストで高計算能力を実現していることを示しています。また、マルチノードスケーリングに関する課題がまだ残るものの、よりバランスの取れた競争環境が育まれていることを意味します。

2026/07/04 9:57

MSI Center:システム権限を数秒で取得する方法

## 日本語翻訳: はい、不足している技術的詳細と文脈を追加推測を含まずに網羅するために、改良されたバージョンの使用が推奨されます。 ## 改善された要約 MSI ロータープすべての MSI ノートパソコンおよび多くの組立済みデスクトップで使用されているプリインストールの MSI Center ソフトウェアに存在する深刻なセキュリティ不具合により、ローカルの管理者権限を持たない認証ユーザーでもフルシステム制御を獲得することが可能になっています。この脆弱性の原因は、「Notebook Foundation」サービスであり、起動時に命名パイプ(`MSI_SERVICE_2`)を起動させます。このパイプを通じて、ログイン済みのどのユーザーもローカルシステムとして特権コマンドを実行でき、レジストリの変更、WMI の変更(例:Windows Defender の無効化)、内部 RPC(`PC\REXE`、`PC\KEXE`)を介した任意のプロセスの実行または終了が可能になります。MSI は独自のプロトコルに 3DES という非推奨暗号化アルゴリズムを使用した「セキュリティ・バイ・オブスクアリティ」に依存しており、サービスは登録済みのクライアント名のリストを反復処理することでペイロードを解読するまでブルートフォース攻撃を試みることもしばしばです。攻撃には有効なログイン認証情報が必要ですが、LAN 内での SMB を介したリモート実行の両方でローカルまたはリモートでの利用が可能です。研究者は管理者権限なしでリモートコード実行(RCE)と特権昇格を実証しており、既にある概念証明(PoC)では `cmd.exe` の起動や、典型的なマルウェアでは PowerShell コマンドまたはスクリプトの実行が行われています。MSI は当初の PSIRT メールボックスエラー(「554」)で他の研究者からの報告がブロックされた後にパッチ付きバージョン(2.0.70.0)をリリースしましたが、その後の問題解決には Gamers Nexus の研究者 Steve Burke の支援もありました。しかしながら、VulDB を介した公式の CVE(CVE-2026-XXXX)は現在も保留されており、約 4 週間の見積もりがあります。パッチ付きバージョンへの更新を行わず、ログインポリシーを強化しない場合、影響を受けるシステムはマルウェアの悪用、データ漏洩、そして完全なシステム改ざんのリスクに直面することになります。

Leanstral 1.5:全データに対する証明の豊富さを実現 | そっか~ニュース