
2025/12/19 0:01
Mistral OCR 3
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Mistral OCR 3 は、従来のエンタープライズツールと AI ネイティブ競合他社の両方を上回る高精度な OCR モデルです。フォーム、スキャン文書、複雑な表、および手書き文字に対して Mistral OCR 2 と比較し、全体で 74 % の勝率を達成します。このモデルは、1,000 ページあたり $2(50 % Batch‑API 割引適用で 1,000 ページあたり $1)と価格設定されており、シンプルな API または Mistral AI Studio のドラッグ&ドロップ Document AI Playground を通じてアクセスできます。
主な強みは次のとおりです:
- 手書き文字サポート – 連続体文字、混合内容、および印刷フォーム上の手書き文字。
- フォーム処理 – 請求書、領収書、コンプライアンスフォーム、政府文書におけるボックス、ラベル、手書き入力、および密集レイアウトの検出を改善。
- 頑健性 – 圧縮アーティファクト、傾斜、歪み、低 DPI、背景ノイズ、複雑なレイアウトに対処。
- 表再構築 – ヘッダー、結合セル、多行ブロック、および列階層を完全にサポートし、colspan/rowspan を含む HTML テーブルタグ付きの拡張マークダウンを出力。
初期採用者はすでに Mistral OCR 3 を高ボリュームのエンタープライズパイプラインに統合しています:請求書を構造化フィールドへ変換、会社アーカイブのデジタル化、技術レポートからクリーンテキストを抽出、および企業検索の強化。精度、コスト効果、柔軟な展開の組み合わせにより、大規模文書処理を業界横断で変革できる競争力ある代替手段として位置づけられています。
本文
ハイライト
- 突破的性能: フォーム、スキャン文書、複雑な表、および手書き文字に対し、Mistral OCR 2 と比較して総合勝率 74 % を実現。
- 最先端の精度: エンタープライズ向けドキュメント処理ソリューションと AI ネイティブ OCR を上回る性能を誇ります。
- Document AI Playground: Mistral AI Studio に統合されたドラッグ&ドロップインタフェースで、PDF / 画像をクリーンテキストまたは構造化 JSON に簡単に変換できます。
- OCR 2 への大幅アップグレード: フォーム、手書き文字、低品質スキャン、表の扱いが格段に向上。
概要
Mistral OCR 3 は、多種多様な文書からテキストと埋め込み画像を卓越した精度で抽出します。
主な特徴:
- Markdown 出力は HTML ベースの表再構築機能付き。下流システムが 内容 と 構造 を同時に理解できます。
- モデルサイズがコンパクト;価格は $2 / 1,000 ページ、バッチ API 利用で 50 % 割引(→ $1 / 1,000 ページ)。
エンドポイントから API アクセス。mistral-ocr-2512- ユーザーインタフェース: Document AI Playground により即座にテキストまたは構造化 JSON を取得。
ベンチマーク
実際の顧客ユースケースを基に挑戦的な内部ベンチマークを作成し、複数モデルを評価。精度はファジーマッチメトリクスで真値と比較して測定しました。
前世代 OCR からのアップグレード
| カテゴリー | 改善点 |
|---|---|
| 手書き文字 | スクリプト、混在コンテンツ注釈、および印刷フォーム上に重ねた手書き文字を正確に解釈。 |
| フォーム | ボックス、ラベル、手書き入力、密集レイアウトの検出が向上。請求書・領収書・コンプライアンスフォーム・政府文書などで高い性能を発揮。 |
| スキャン&複雑文書 | 圧縮ノイズ、傾斜、歪み、低 DPI、背景ノイズに対して頑健。 |
| 複雑表 | ヘッダー、結合セル、多行ブロック、列階層を含む完全なテーブル構造を HTML タグ(、、)で再現。 |
Mistral OCR 3 は、すべての言語・文書タイプにおいて Mistral OCR 2 を大幅に上回るアップグレードを提供します。
推奨ユースケース & アプリケーション
高ボリュームのエンタープライズパイプラインからインタラクティブワークフローまで、幅広く適用可能。主なユースケース:
- Markdown でテキストと画像を抽出し、下流エージェントや知識システムへ供給。
- フォーム・請求書・業務文書の自動解析。
- エンドツーエンドのドキュメント理解パイプライン。
- 手書きまたは歴史的文書のデジタル化。
- 「文書 → 知識」変換全般。
先行採用者は Mistral OCR 3 を利用して:
- 請求書を構造化フィールドへ変換。
- 企業アーカイブをデジタル化。
- 技術・科学レポートからクリーンテキストを抽出。
- エンタープライズ検索を強化。
「OCR は生成 AI とエージェント型 AI を実現する基盤です」と IDC の AI & Automation リサーチディレクター、Tim Law は語ります。「高精度でコスト効率良くテキストと埋め込み画像を抽出できる組織は、データから価値を解放し、競争優位性を獲得します。」
利用可能状況
- Mistral OCR 3 は今日から API または Mistral AI Studio の新しい Document AI Playground で利用できます。
- Mistral OCR 2 と完全互換です。
詳細は mistral.ai/docs をご覧ください。