
2025/12/09 23:45
Mistral Releases Devstral 2 (72.2% SWE-Bench Verified) and Vibe CLI
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Devstral は、2 つの大規模オープンソース言語モデルをリリースしました。
- Devstral 2(123 B パラメータ、256K コンテキストウィンドウ、MIT バリアントライセンス)
- Devstral Small 2(24 B パラメータ、同じコンテキストサイズ、Apache 2.0 ライセンス)
両モデルは最初の 90 日間は API 経由で無料です。以降は Devstral 2 が入力/出力それぞれで 1 百万トークンあたり $0.40 / $2.00、Small 2 は $0.10 / $0.30 の料金になります。
SWE‑bench Verified ベンチマークでは、Devstral 2 が 72.2 % を記録し、Claude Sonnet より 7 倍のコスト効率を実現しています。さらに DeepSeek V3.2 に対しては、人間評価で 42.8 % 対 28.6 % の損失差で優位に立っています。
同じベンチマークで Small 2 は 68.0 % を達成し、より大きな競合モデルと比較しても優れた性能を示すか、あるいは同等です。ただし、サイズは 5 倍から 28 倍まで小さく抑えられています。
Devstral 2 はデータセンターでの導入に最低 4 台の H100 クラス GPU を必要とします。
Small 2 は単一 GPU の消費者向けハードウェア(DGX Spark、GeForce RTX)に最適化されており、CPU だけでも動作可能です。両モデルとも特定言語や企業コードベース用のファインチューニングをサポートし、オンプレミスまたはローカル環境でカスタム構成と共にデプロイできます。
Mistral Vibe CLI は、これらのモデルを搭載したネイティブコマンドラインコードアシスタントです。
- マルチファイルオーケストレーション
- プロジェクト認識コンテキスト
- 永続的ヒストリ
- ファイル操作
- コード検索
- バージョン管理
- コマンド実行
Apache 2.0 ライセンスで公開され、Zed IDE 拡張機能として利用可能です。Agent Communication Protocol を介して他の IDE へも統合できます。
Devstral Small 2 はさらに画像入力をサポートし、ハビリティや小規模事業者向けに高速推論が可能なマルチモーダルエージェントを実現します。Kilo Code が「これまでで最も成功したステルスローンチの一つ」と評価したこのリリースは、開始 24 時間以内に 170 億トークン を処理しました。
Devstral は X/Twitter、Discord、および GitHub を通じてコミュニティ参加を促進しており、オープンソースエコシステムの拡大に向けて研究者とインターフェースエンジニアを募集しています。
本文
本日、Devstral 2をリリースします—次世代のコード生成モデルファミリーが2つのサイズでご利用いただけます。
- Devstral 2 (123 B) – 256K‑コンテキストの密結合トランスフォーマーで、SWE‑bench Verifiedで**72.2 %**を達成。競合モデルに比べてパラメータ数が少ないにも関わらず、最先端の性能を実現します。
- Devstral Small 2 (24 B) – コンパクトでローカルデプロイ可能なモデルで、SWE‑bench Verifiedでも**68.0 %**に到達し、マルチモーダルエージェント向けに画像入力をサポートします。
両モデルともオープンソースです。
| モデル | ライセンス | API 利用 |
|---|---|---|
| Devstral 2 | Modified MIT | 発表期間中は無料。以降は入力/出力トークンあたり $0.40 / $2.00(百万単位) |
| Devstral Small 2 | Apache 2.0 | 発表期間中は無料。以降は入力/出力トークンあたり $0.10 / $0.30(百万単位) |
主要ポイント
- Devstral 2 – SWE‑bench Verifiedで72.2 %、実際のタスクではClaude Sonnetより最大7倍安価。
- Mistral Vibe CLI – ネイティブなオープンソース端末エージェントが、ソフトウェア工学タスクを自律的に解決します。
- Devstral Small 2 – 24 Bでコンシューマ向けハードウェア上にローカルデプロイ可能;オンプレミスでのファインチューニングもサポート。
本番レベルのワークフロー
- Devstral 2 はコードベース全体を探索し、マルチファイル変更を調整し、フレームワーク依存関係を追跡し、失敗を検知して修正と再試行を行うことができるため、バグ修正やレガシー近代化に最適です。
- モデルをファインチューニングして特定の言語や大規模エンタープライズコードベースを優先させることも可能です。
性能比較
| モデル | SWE‑bench Verified | DeepSeek V3.2 相対サイズ | Kimi K2 相対サイズ |
|---|---|---|---|
| Devstral 2 (123 B) | 72.2 % | 5× 小さい | 8× 小さい |
| Devstral Small 2 (24 B) | 68.0 % | 28× 小さい | 41× 小さい |
Mistral Vibe CLI – 主な機能
- プロジェクト認識コンテキスト:ファイル構造と Git の状態を自動スキャン。
- スマート参照:
自動補完、@
シェル実行、設定用のスラッシュコマンド。! - マルチファイル調整:コードベース全体にわたるアーキテクチャレベルの推論。
- 永続的ヒストリ、自動補完、カスタムテーマ。
CLI は Apache 2.0 の下で公開されており、Agent Communication Protocol を通じて IDE(例:Zed)に統合できます。
デプロイメントの推奨設定
| モデル | GPU 要件 | 対応ハードウェア |
|---|---|---|
| Devstral 2 | 最小 4 台の H100 クラス GPU | データセンター GPU(build.nvidia.com 推奨) |
| Devstral Small 2 | 単一 GPU または CPU のみで動作 | NVIDIA DGX Spark、GeForce RTX、コンシューマグレード GPU |
推奨温度:0.2。最適なパフォーマンスを得るために Mistral Vibe CLI のベストプラクティスに従ってください。
使い始め
- API アクセス – Devstral 2 は発表期間中無料。以降は料金が適用されます。
- CLI – Zed 拡張機能またはコマンドラインでインストールし、
で設定。config.toml - コミュニティ – X/Twitter、Discord、GitHub でプロジェクトを共有。
一緒に参加しませんか?
オープンソース研究の形を変え、最先端 AI のための世界クラスインターフェイスを構築する情熱的な開発者を募集しています。今すぐ応募して、真にオープンで高性能なコーディングモデルを全世界のユーザーへ届ける手助けをしてください。