Mistral OCR 3

2025/12/19 0:01

Mistral OCR 3

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Mistral OCR 3 は、従来のエンタープライズツールと AI ネイティブ競合他社の両方を上回る高精度な OCR モデルです。フォーム、スキャン文書、複雑な表、および手書き文字に対して Mistral OCR 2 と比較し、全体で 74 % の勝率を達成します。このモデルは、1,000 ページあたり $2(50 % Batch‑API 割引適用で 1,000 ページあたり $1)と価格設定されており、シンプルな API または Mistral AI Studio のドラッグ&ドロップ Document AI Playground を通じてアクセスできます。

主な強みは次のとおりです:

  • 手書き文字サポート – 連続体文字、混合内容、および印刷フォーム上の手書き文字。
  • フォーム処理 – 請求書、領収書、コンプライアンスフォーム、政府文書におけるボックス、ラベル、手書き入力、および密集レイアウトの検出を改善。
  • 頑健性 – 圧縮アーティファクト、傾斜、歪み、低 DPI、背景ノイズ、複雑なレイアウトに対処。
  • 表再構築 – ヘッダー、結合セル、多行ブロック、および列階層を完全にサポートし、colspan/rowspan を含む HTML テーブルタグ付きの拡張マークダウンを出力。

初期採用者はすでに Mistral OCR 3 を高ボリュームのエンタープライズパイプラインに統合しています:請求書を構造化フィールドへ変換、会社アーカイブのデジタル化、技術レポートからクリーンテキストを抽出、および企業検索の強化。精度、コスト効果、柔軟な展開の組み合わせにより、大規模文書処理を業界横断で変革できる競争力ある代替手段として位置づけられています。

本文

ハイライト

  • 突破的性能: フォーム、スキャン文書、複雑な表、および手書き文字に対し、Mistral OCR 2 と比較して総合勝率 74 % を実現。
  • 最先端の精度: エンタープライズ向けドキュメント処理ソリューションと AI ネイティブ OCR を上回る性能を誇ります。
  • Document AI Playground: Mistral AI Studio に統合されたドラッグ&ドロップインタフェースで、PDF / 画像をクリーンテキストまたは構造化 JSON に簡単に変換できます。
  • OCR 2 への大幅アップグレード: フォーム、手書き文字、低品質スキャン、表の扱いが格段に向上。

概要

Mistral OCR 3 は、多種多様な文書からテキストと埋め込み画像を卓越した精度で抽出します。
主な特徴:

  • Markdown 出力は HTML ベースの表再構築機能付き。下流システムが 内容構造 を同時に理解できます。
  • モデルサイズがコンパクト;価格は $2 / 1,000 ページ、バッチ API 利用で 50 % 割引(→ $1 / 1,000 ページ)。
  • mistral-ocr-2512
    エンドポイントから API アクセス。
  • ユーザーインタフェース: Document AI Playground により即座にテキストまたは構造化 JSON を取得。

ベンチマーク

実際の顧客ユースケースを基に挑戦的な内部ベンチマークを作成し、複数モデルを評価。精度はファジーマッチメトリクスで真値と比較して測定しました。


前世代 OCR からのアップグレード

カテゴリー改善点
手書き文字スクリプト、混在コンテンツ注釈、および印刷フォーム上に重ねた手書き文字を正確に解釈。
フォームボックス、ラベル、手書き入力、密集レイアウトの検出が向上。請求書・領収書・コンプライアンスフォーム・政府文書などで高い性能を発揮。
スキャン&複雑文書圧縮ノイズ、傾斜、歪み、低 DPI、背景ノイズに対して頑健。
複雑表ヘッダー、結合セル、多行ブロック、列階層を含む完全なテーブル構造を HTML タグ(
<table>
colspan
rowspan
)で再現。

Mistral OCR 3 は、すべての言語・文書タイプにおいて Mistral OCR 2 を大幅に上回るアップグレードを提供します。


推奨ユースケース & アプリケーション

高ボリュームのエンタープライズパイプラインからインタラクティブワークフローまで、幅広く適用可能。主なユースケース:

  • Markdown でテキストと画像を抽出し、下流エージェントや知識システムへ供給。
  • フォーム・請求書・業務文書の自動解析。
  • エンドツーエンドのドキュメント理解パイプライン。
  • 手書きまたは歴史的文書のデジタル化。
  • 「文書 → 知識」変換全般。

先行採用者は Mistral OCR 3 を利用して:

  • 請求書を構造化フィールドへ変換。
  • 企業アーカイブをデジタル化。
  • 技術・科学レポートからクリーンテキストを抽出。
  • エンタープライズ検索を強化。

「OCR は生成 AI とエージェント型 AI を実現する基盤です」と IDC の AI & Automation リサーチディレクター、Tim Law は語ります。「高精度でコスト効率良くテキストと埋め込み画像を抽出できる組織は、データから価値を解放し、競争優位性を獲得します。」


利用可能状況

  • Mistral OCR 3 は今日から API または Mistral AI Studio の新しい Document AI Playground で利用できます。
  • Mistral OCR 2 と完全互換です。

詳細は mistral.ai/docs をご覧ください。

同じ日のほかのニュース

一覧に戻る →

2025/12/20 7:13

CSS Grid Lanes

## Japanese Translation: > **Safari Technology Preview 234 は CSS Grid Lanes を導入しました**。これは、開発者が JavaScript なしで CSS 内で直接モザイク風グリッドを構築できる新しいレイアウトモードです。 > > 開発者は `display: grid-lanes;` と標準の Grid 構文(`grid-template-columns`、`repeat(auto-fill, …)` など)を組み合わせて柔軟なレーンを作成します。アイテムは自動的に最も近い上部レーンに配置され、無限スクロールとタブフレンドリーなナビゲーションが可能になります。 > > **高度な機能** には、レーンサイズの変更(`minmax(8rem, 1fr) minmax(16rem, 2fr)`)、アイテムの跨ぎ(`grid-column: span N`)、明示的配置(`grid-column: -3 / -1`)および新しい `item-tolerance` プロパティ(デフォルトは `1em`)が含まれます。これは、サイズ差に基づいてアイテムがレーンをどれだけ積極的にシフトするかを制御します。レーンは列方向(「ウォーターフォール」)または行方向(「レンガレイアウト」)で向きを設定でき、デフォルトの流れは通常です。 > > 実装は 2022 年中頃に開始され、Safari TP 234 で利用可能です。ライブデモは <https://webkit.org/demos/grid3>(写真ギャラリー、ニュースレイアウト、博物館サイト、メガメニューフッター)でホストされています。CSS Working Group はまだプロパティ名と向きの構文(`grid-lanes-direction` か `grid-auto-flow` の再利用)を最終化中です。その決定が下り次第、この機能は本番環境で使用できるようになります。 > > 開発者にとって、これは追加の JavaScript を必要とせず、より高速でパフォーマンスの高いレスポンシブレイアウトを実現することを意味し、ブラウザベンダーは同様の機能を採用する可能性があり、将来のウェブデザイン標準に影響を与えるでしょう。

2025/12/20 8:59

PBS News Hour West to go dark after ASU discontinues contract

## Japanese Translation: ## Summary アリゾナ州立大学(ASU)のウォルター・クロンスキー報道学部は、PBS NewsHour Westとのパートナーシップを更新しないことを決定し、2019 年から ASU のダウンタウンフェニックスキャンパスで運営されていた事務所を実質的に閉鎖しました。この動きは「ASUの優先事項の変更」に起因すると、News Hour Productions の GM 兼 WETA EVP/CCO のマイケル・ランチリオが述べました。PBS およびアリゾナ PBS は追加説明を行わず、ASU に感謝し、地域ニュースへの継続的な取り組みを約束しました。 閉鎖により、西海岸で 20 % 以上の視聴者に到達することを支援していた西部本部としての事務所の役割が終了します。また、ASU のジャーナリズム学生(例:AJ Ceglia 学長)に実地報道経験と就職機会を提供していたインターンシッププログラムも消滅します。現在のインターンは学術クレジットを受け取りますが、卒業要件を満たすために代替配置を探す必要があります。 PBS NewsHour West の最終全国放送は 12 月 19 日に行われます。クロンスキー建物は、事務所閉鎖前に学校のサポートを称える形で夜間放送に登場しました。この報道は *The State Press* のジュニアレポーター、エマ・ブラッドフォード(連絡先:elbradfo@asu.edu; X @emmalbradford)によって取り上げられました。彼女も ASU のジャーナリズム/メディアコミュニケーション学部の学生です。 この決定は、西米国における地域ニュースの報道を減少させ、PBS の視聴者エンゲージメントを低下させ、新進気鋭のジャーナリストのプロフェッショナルパスウェイを制限する可能性があります

2025/12/20 0:40

Garage – An S3 object store so reliable you can run it outside datacenters

## Japanese Translation: ## Summary Garageは、すべてのLinuxディストリビューションで動作する単一の依存関係フリーなバイナリを提供し、システム管理者向けに高速かつオペレーターが扱いやすいデプロイメントを実現します。 インターネット上で複数のデータセンター間で安全に動作するよう設計されており、専用バックボーンは不要で、ネットワーク・ディスク・管理者障害にも耐えます。 最低限必要なハードウェア要件は控えめです:過去10年のx86_64 CPUまたはARMv7/ARMv8、少なくとも1 GBのRAM、≥16 GBのディスク容量、および≤200 msのレイテンシと≥50 Mbpsの帯域幅を持つネットワーク。異種の中古機器を組み合わせてクラスターを構築することも可能です。 資金調達歴には、NGI POINTER(2021–22)で3名のフルタイム従業員を支援、NLnet/NGI0 Entrust(2023–24)で1名のフルタイム従業員を支援、NLnet/NGI0 Commons Fund(2025)で1.5名のフルタイム従業員を支援するほか、EU Horizon 2021 grant agreement N° 871528(NGI‑POINTER Project)や追加のNGI Zeroグラント—Entrust Fund(grant No 101069594)およびCommons Fund(grant No 101135429)が含まれます。 これらの投資は継続的な開発を示しており、Garageはクラウドやエッジコンピューティングシナリオに対し、低コストでフォールトトレラントなインフラストラクチャを控えめなハードウェア上で提供する立場にあります。