MistralがLeanstralをリリース

--- 

(※「Leanstral」はそのまま固有名詞として扱います。)

2026/03/17 5:59

MistralがLeanstralをリリース --- (※「Leanstral」はそのまま固有名詞として扱います。)

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


Summary

Leanstral は Lean 4 専用に設計された最初のオープンソースコードエージェント であり、Apache 2.0 ライセンスの下でリリースされ、重みファイルをダウンロードできるほか、一時的な無料 API エンドポイント(

labs-leanstral-2603
)と公開された技術レポートがあります。
このモデルは 証明工学タスクに最適化された非常にスパースな 6 B‑パラメータアーキテクチャ を採用し、Lean を完璧な検証器として活用した並列推論を実現しています。モデルは lean‑lsp‑mcp データセット 上で訓練されており、Mistral Vibe 経由で任意の Model‑Composed Pipelines(MCP)をサポートします。

FLTEval で評価すると—FLT プロジェクトにおける形式的証明の完了と新概念の定義をベンチマークし、単独の数学問題ではなく実際のタスクを測定する—Leanstral‑120B‑A6B は pass@2 スコア 26.3 と pass@4 スコア 29.3 を達成し、GLM5‑744B‑A40B(≈16–20)や Kimi‑K2.5‑1T‑32B よりも優れた性能を示しています。Claude 系列モデルと比較すると、Leanstral は $36 で pass@2 スコア 26.3 を達成し、Sonnet の $549(スコア 23.7)に対して同等の性能です。また pass@16 スコア 31.9 が $531 で得られ、Sonnet の $8,031.9 と比較しても大幅に低価格です。Claude Opus 4.6 モデルは依然として最高品質ですが、$1,650 という価格は Leanstral の同等スコア時の費用の約 90 倍以上になります。

実際のケーススタディでは、その実用性が示されています:

  • Lean 4.29.0‑rc6 の破壊的変更を診断し、
    def
    abbrev
    間の定義等価性問題を特定して正しい修正案を提示し、ユーザーに説明しました。
  • Princeton の CS 441 コースから Rocq 定義を Lean に変換し、カスタム記法を扱い、証明が提供されていないプロパティも自動で証明しました。

Leanstral は Mistral Vibe に統合されており、ユーザーは

/leanstall
エンドポイントを呼び出してゼロセットアップのコーディングと証明を行えます。一時的な API エンドポイント(
labs-leanstral-2603
)はフィードバックと観測データ収集のために利用可能です。ユーザーはモデル重みをダウンロードし、Leanstral をローカルで実行したり、Mistral Vibe にサインアップして完全なドキュメントへアクセスすることもできます。

この軽量かつコスト効果の高いツールは、開発者や研究者が形式的検証ワークフローを加速させるために活用でき、コミュニティへの貢献と学術界および産業界での広範な採用を促進します。

本文

AI エージェントはコード生成において非常に高い性能を示しています。しかし、先端研究数学からミッションクリティカルなソフトウェアまでのハイステークス領域へとモデルを押し上げるにつれて、人間によるレビューというスケーリングボトルネックが顕在化します。手動で検証するために必要な時間と専門知識は、エンジニアリング速度の主要な障壁となっています。

私たちは、タスクを実行すると同時に厳密な仕様に対して実装を正式に証明できるより有用なコード生成エージェントの構想を描いています。機械が生成したロジックをデバッグする代わりに、人間は「何を望むか」を指示します。本日は、そのビジョンへの最初の大きな一歩を踏み出しました。


Leanstral のご紹介

Leanstral は、Lean 4 向けに設計された最初のオープンソースコードエージェントです。

  • Lean 4 は、perfectoid 空間などの複雑な数学的対象や Rust フラグメントのプロパティといったソフトウェア仕様を表現できる証明支援ツールです。
  • 既存の証明システムは大規模汎用モデルをラッパーとして使用したり、単一の数学問題に焦点を当てたりするのに対し、Leanstral は高速(6 B 活性パラメータ)で実際的な形式リポジトリで動作するよう設計されています。

オープンでアクセス可能

  • Leanstral の重みは Apache 2.0 ライセンスの下で公開され、Mistral Vibe 内のエージェントモードおよび無料 API エンドポイントから利用できます。
  • さらに、トレーニング手法を詳細に説明した技術報告書と、新しい評価スイート FLTEval を公開し、競争数学だけでなく実際の証明エンジニアリングへの評価へと移行します。

効率的かつ強力

  • Leanstral は高度に疎な構造を採用しており、証明工学タスク向けに最適化されています。
  • Lean を完璧な検証器として並列推論を活用することで、Leanstral は既存のクローズドソース競合他社よりも性能とコスト効率が高いです。

MCP でアップグレード可能

  • Leanstral は Vibe を介して任意の MCP をサポートし、頻繁に使用される
    lean-lsp-mcp
    と最大限のパフォーマンスを発揮するよう特別にトレーニングされています。

評価

実際の証明工学シナリオでの有用性を反映させるため、Leanstral は FLT プロジェクトの各 PR で形式的な証明を完了し、新しい数学概念を正しく定義できるかどうかをベンチマークしました。単一の数学問題ではなく、実際にプロジェクトで使われるタスクです。主導的なコードエージェント(Claude Opus 4.6, Sonnet 4.6, Haiku 4.5)とオープンソースモデル(Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B)と比較しました。

Leanstral vs. OSS モデル

ModelSizeScore
GLM5‑744B‑A40B744 B~16.6
Kimi‑K2.5‑1T‑32B1 T~20.1
Qwen3.5‑397B‑A17B397 B25.4 (4 passes)
Leanstral‑120B‑A6B120 B26.3 (pass@2), 29.3 (pass@4)

Leanstral は単一パスでより大きなオープンソースモデルを上回り、線形にスケールしつつ同じコストレベルで 29.3 を達成します。

Leanstral vs. Claude 系列

ModelCost ($)Score
Haiku1823.0
Sonnet54923.7
Opus1,65039.6
Leanstral18221.9
Leanstral pass@226.3
Leanstral pass@429.3
Leanstral pass@831.0
Leanstral pass@1631.9

価格のわずか 1/10 に対して、Leanstral の pass@2 スコア(26.3)は Sonnet を 2.6 ポイント上回り、費用は $36 で済みます。pass@16 では Sonnet を 8 ポイント差で優位に立ちます。

ベンチマークには Mistral Vibe をスキャフォールドとして使用し、評価のために特別な変更は行っていません。


ケーススタディ

最新 Lean バージョンの変更に関する StackExchange の質問への回答

新しい Lean リリースで破壊的変更が生じると、マイグレーション作業は大変です。Proof Assistants Stack Exchange から、Lean 4.29.0‑rc6 でコンパイルが停止したスクリプトに関する実際の質問を Leanstral に投入しました(当時はまだ学習対象外でした)。原因は

rw
タクティックが単純な型エイリアス(
def T2 := List Bool
)を含むパターンと一致できなくなることにありました。

Leanstral は失敗環境を再現するテストコードを生成し、定義的等価性の問題を診断しました。

def
が硬直した定義であるため
rw
タクティックが必要な構造を見えなくしていたことを特定し、解決策として
def
abbrev
に置き換えるよう提案しました。
abbrev
は透明エイリアスで即座に等価になるため、
rw
タクティックが
(L2 n).length
というパターンを再び正しくマッチできるようになりました。Leanstral は作業を完了し、その根拠もユーザーへわかりやすく説明しました。

プログラムの推論

Rocq の https://www.cs.princeton.edu/courses/archive/fall10/cos441/sf/Imp.html から定義をコピーし、Lean に変換するよう Leanstral を依頼しました。成功裏に実装され、カスタム記法も導入されました(例スニペットは省略)。さらに、Rocq の宣言のみ(証明なし)でプログラムの性質を Lean へ翻訳し、その後証明できることも確認しました。


はじめに

  • 今すぐ Leanstral を試す – Leanstral は今日から誰でも利用可能です。
  • Mistral Vibe でゼロセットアップ – Mistral Vibe に直接統合して、即座にコードと証明を行えます。
    /leanstall
    コマンドで開始してください。
  • Labs API – 無料/低価格の API エンドポイント
    labs-leanstral-2603
    からモデルへアクセスできます。このエンドポイントは限定期間中に高いアクセシビリティを保ち、次世代の検証済みコードモデル開発に向けたリアルなフィードバックと観測データを収集します。
  • 重みを自前で管理 – Apache 2.0 ライセンスの下で重みをダウンロードし、ご自身の環境で実行可能です。
  • ドキュメント – Mistral Vibe にサインアップして、完全なドキュメントとサポートへアクセスしてください。

同じ日のほかのニュース

一覧に戻る →

2026/03/17 3:12

Meta、jemallocへの再挑戦を強化

## Japanese Translation: ``` ## Summary Meta は、Linux カーネルや Meta のインフラストラクチャ内のコンパイラなど重要なコンポーネントを動かす高性能メモリアロケータである jemalloc に注力することを決定しました。この移行は長期的なメリットに基づいており、保守コストの削減、コードベースの近代化、および進捗を遅らせていた技術的負債の排除が目的です。今回の取り組みの一環として、オリジナルのオープンソース jemalloc リポジトリはアーカイブから外されました。 主な改善領域は以下の通りです: - **技術的負債削減** – 効率と信頼性を向上させるためにクリーンアップとリファクタリングを実施。 - **Huge‑Page Allocator (HPA)** – CPU の効率化を図るためにトランスペアレントヒュージページ(THP)の使用を改善。 - **メモリ効率** – パッキング、キャッシュ、およびパージング機構の最適化。 - **AArch64 最適化** – ARM64 プラットフォームでのアウト・オブ・ザ・ボックス性能を確保。 Meta はオープンソースコミュニティに貢献を呼びかけ、jemalloc の将来ロードマップを共に形作ることによって、Meta 自身のソフトウェアユーザーとこのアロケータに依存する広範なエコシステム双方に利益をもたらすよう促しています。 ```

2026/03/17 2:17

小さなWebは、あなたが考えているよりもずっと大きいものです。

## 日本語訳: **概要** 本文は、**「小さなウェブ」― 通常のブラウザとサーバーでアクセスできる非営利・個人向けサイトが依然として膨大かつ活発だが、1 ページだけでまとめるにはあまりにも大きい」という事実を説明しています。** - **背景**:Gemini プロトコルは世界中に約 6,000 のカプセル(capsule)という独自のエコシステムを持ち、そのフォーラムには主に IT 専門家で構成される約 100 名が参加し、商業的利用は推奨していません。 - **手法**:著者は Kagi が公開する更新フィードを配信しているサイトのリストを使用しました。このリストは昨年の約 6,000 件から今日では約 32,000 件に増加し、多くはプライベートブログや企業がホストするサイト(例:Blogger)です。 - **フィルタリングプロセス** 1. 各フィードをダウンロードし、タイムスタンプと有効な XML があることを確認した結果、約 25,000 サイトに絞られました。 2. 月間更新が 1 回未満のサイトを除外すると、約 9,000 のアクティブサイトが残ります。 - **結果**:3 月 15 日時点でこれら 9,000 サイトは 1,251 件の更新(主に新しいコンテンツ追加)を生成し、過去の日付とほぼ同程度です。毎日の更新量を見ると、単一ページの集約は非実用的であり、小さなウェブはその規模と活発さからそのような表示には不向きです。 - **結論**:サイズが大きいにも関わらず、小さなウェブは成長を続け、主流プラットフォームに対する広告なしの代替手段として機能します。 - **行動喚起**:著者は読者に対し、このページへの参照 URL を含む Webmention を送信してもらい、継続的な関与を促しています。

2026/03/16 22:09

私の旅―信頼性が高く、楽しめるローカルホスト型音声アシスタントへ(2025)

## Japanese Translation: > Home Assistantは、従来のGoogle‑Home/Nest Miniセットアップを置き換える完全にローカルな音声アシスタントを、llama.cppによって駆動させることができるようになりました。テストでは、RTX 3050からRTX 3090まで、またRX 7900XTXのGPUを使用すると、1〜2 秒の音声→テキストレイテンシー(中程度のカードでは約3〜4 秒)が得られます。音声ハードウェアにはHA Voice Preview Satellite、Pixel 7a hub、およびUSB4 eGPU付きBeelink MiniPCが含まれています。ASRオプションとしてはWyoming ONNXがCPU推論で約0.3 秒を実現し、Rhasspy Faster Whisperは遅いです。テストされたTTSエンジンはKokoro(ミックス可能な音声、全テキスト)とCPU上のPiper(一般的なテキストには良好だが数字や住所では苦戦します)。 > ローカルLLM統合により、「LLM Conversation」モードとツール呼び出し用「LLM Intents」が追加され、ウェブ検索・場所検索・天気予報などを可能にします。カスタムウェイクワードトレーニング(“Hey Robot”)はGPUで約30 分実行され、許容できる誤検出率が得られました。自動化では、トリガーされていないときにミュートになるよう設定できます。例として「Music Shortcut」自動化は衛星を`media_player`にマッピングし、`music_assistant.play_media`を呼び出します。 > プロンプトエンジニアリングが重要です:各サービス用の専用セクションと簡潔な箇条書き指示でツール呼び出しが改善されます。絵文字の削除は精度向上に寄与します。llama.cppによるパフォーマンス最適化と慎重なGPU選択により、レイテンシーを3 秒以下に保ち、プライバシーファーストのローカル音声制御として信頼性があります。著者は、このソリューションには相当な研究・忍耐・チューニングが必要であると警告し、高度なHome Assistantユーザーやカスタマイズ性・クラウドフリーを求める開発者に最適であると述べています。

MistralがLeanstralをリリース --- (※「Leanstral」はそのまま固有名詞として扱います。) | そっか~ニュース