
2026/05/12 1:22
インターフェイス:大規模化において高い精度を実現するための新たなモデルアーキテクチャ
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Interfaze は、OCR、ビジョン、音声認識(STT)、構造化出力の 9 つのハンドトゥハンドベンチマークにおいて、Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini、Grok-4.3 を凌駕する新しいモデルアーキテクチャです。その設計は、DNN/CNN モデルの専門性とオムニトランスフォーマーを融合させ、OCR、翻訳、音声処理、ウェブ抽出といった決定論的タスクにおいて高い精度と低コストを実現します。该系统は複数の主要ベンチマークでリードしており、OCRBench V2 では 70.7%、VoxPopuli-Cleaned-AA では単語誤差率が 2.4%(ネイティブオーディオ入力のモデルの中で 2 位)、olmOCR(85.7%)、GPQA Diamond(89.9%)、MMMLU(90.9%)において高い性能を示しています。
価格は、入力トークンあたり 150 ドル、出力トークンあたり 35 ドルの Gemini-3-Flash と比較可能で、コンテキストウィンドウは 1M トークン、最大出力は 32k です。モデルはテキスト、画像、音声、ファイルのモーダルを対応し、高度な推論機能は提供されていますがデフォルトでは無効化されています。Interfaze は高速な音声文字起こしを可能にしており、計算時間あたり秒ごとに最大 209 秒の音声を処理でき、Deepgram Nova-3 より約 1.5 倍、Scribe v2 より約 8 倍、Gemini-3-Flash より 11 倍以上速いです。
統合は標準的な Chat Completions API を介してシームレスに可能です(
https://api.interfaze.ai/v1)。OpenAI 互換エンドポイントを受け付ける任意の AI SDK がサポートされます。システムには、複数の SERP スクレイプから派生した組み込みの Web インデックスと、インターネットアクセスおよび情報強化用の内部クローラーが備わっています。システムプロンプトで <task> タグを使用することで、特定の決定論的タスク(例:OCR、JSON 生成)のためにモデルの一部だけを活性化するPartial Model Activation が可能となり、リクエストごとに1つの焦点化されたタスクを処理することでハルシネーションと計算資源を削減します。Structured Output Benchmark (SOB) の結果は、コンテキストから JSON を生成する際にコストや計算を増加させずに高い精度を示しています。回答には、構造化された JSON に沿って信頼スコア、バウンディングボックス、生検索結果を含んだ precontext フィールドに生のタスクデータが含まれています。決定論的なワークロードにおいて効率的なスケーリングと低い運用コストにより、Interfaze は OCR、翻訳、音声文字起こし、構造化出力のニーズを扱う開発者に対して即座の利点を提供します。本文
tl;dr: Interfaze は、Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini、および Grok-4.3 を上回る新しいモデルアーキテクチャです。光学文字認識(OCR)、画像認識、音声認識(STT)、構造化出力といった分野において、9 つの対決ベンチマークで優位性を示しました。人間はコンピューターレベルの業務には非効率で、間違いを犯しがちですが、意思決定や微妙なニュアンスの理解においては卓越しています。想像してみてください。人間に 50 ページの PDF を読み込ませ、各単語を別の文書上の XY 座標と対応させ、全体を中国語に翻訳させるケースです。そうすると大量のミスを起こし、人件費を多く支払い、結果を得るまで長期間を要します。トランスフォーマーモデルも同様で、人間レベルの業務やニュアンス理解においては驚異的な性能を発揮しますが、人類のような間違いを犯す特性は、創造性を支える要因でもあります。これまで私たちは、任務に対して不適切なモデルを過剰に活用してしまいました。畳み込みニューラルネットワーク(CNN)や深層ニューラルネットワーク(DNN)は 90 年代初頭から存在しており、LeNet-5 や ResNet、最近では CRNN-CTC が含まれます。これらは OCR、翻訳、GUI 検出などの特定のタスク向けに設計された深層ニューラルネットワークアーキテクチャです。データの入力・処理方法は任務ごとに特化されており、その結果特定タスクにおける精度は最高 100 倍向上します。また、境界ボックスや信頼スコアなどの有用なメタデータを生成するため、開発者が予測可能なワークフローを構築・実装できる点も利点です。ではなぜ、決定論的な業務においても多くの人がトランスフォーマー/LLM を選んでいるのでしょうか?DNN は柔軟性に欠け、学習データの質に依存し、人間レベルの微妙なニュアンスを扱うには不向きです。提供コストは低いかもしれませんが、新しいタスクへの対応のためには維持・再訓練にかかるコストが高くなります。パスポートを例にとると、CNN は境界ボックスと信頼スコアを用いて生年月日を取得できますが、その人の年齢を計算することはできません。そこで登場するのが Interfaze です。これは DNN/CNN モデルの特殊化能力とオムニトランスフォーマーを統合した新しいアーキテクチャであり、両者の長所を兼ね備えています。つまり、決定論的な業務において高い精度と低廉なコストを実現します:画像認識(画像・文書、オブジェクト検出、GUI 検出)、ウェブ情報抽出・検索、音声処理(STT、話者分離)、翻訳、ビデオ分析(近日公開予定)です。
モデル仕様
| 機能 | 値 |
|---|---|
| コンテキストウィンドウ | 1M トークン |
| 最大出力トークン数 | 32k トークン |
| 入力モーダル | テキスト、画像、音声、ファイル |
| 推論機能 | 利用可能(デフォルト:無効化) |
ベンチマーク
Claude Opus 4.7 や GPT 5.5 といったプロ版モデルは、コーディングや高度な推論タスクにおいて現在市場で最高の汎用型モデルですが、OCR や翻訳といった大量処理タスクではコストが高く、応答速度が遅いため一般的には使用されません。Interfaze は、類似価格帯かつ機能セットを持つ他のモデルと比較し、スケールにおける低コストを維持しつつ、最速のスピードで最大限のパフォーマンスを引き出す最適化されたアプローチを採用しています。現在、決定論的な開発者向けタスクでは主に 2 つのカテゴリのモデルが選ばれています:1 つ目は Gemini-3-Flash や GPT-5.4-Mini、Claude Sonnet 4.6(スケールにおけるパフォーマンスとコストの最良のバランス)、2 つ目は Reducto や Mistral OCR、Whisper などの特化型プロバイダーです。
詳細分析
各モデルは、OCR BENCH V2、olmOCR、RefCOCO、VoxPopuli-Cleaned-AA、SOB Value、Spider-2.0-Lite、GPQA Diamond、MMMLU、MMM U-Pro の 9 つのベンチマークで対決比較されました。Interfaze はほぼすべてのベンチマークで他モデルを凌駕し、各カテゴリに特化したモデルもまたその上で、汎用型フラッシュ/ミニモデルと同様に優れています。当社の目標は LLM を置き換えることではなく、決定論的なタスクにおける特化を目指しています。ベンチマークは OCR、オブジェクト検出、構造化出力といったカテゴリーに焦点を当て、いくつかの汎用的ベンチマーク(GPQA Diamond など)を含め、トランスフォーマーモデルから期待される問題解決能力と理解力を示しています。Interfaze の料金は Gemini-3-Flash と同等の価格帯に設定されており、入力トークンあたり 150 ドル(百万件当たり)、出力トークンあたり 35 ドル(百万件当たり)です。
| ベンチマーク | Interfaze | Gemini-3-Flash | Claude-Sonnet-4.6 | GPT-5.4-Mini | Grok-4.3 |
|---|---|---|---|---|---|
| OCRA | 70.7% | 55.8% | 54.7% | 52.7% | 54.7% |
| olmOCR | 85.7% | 75.3% | 73.9% | 80.1% | 81.9% |
| RefCOCO | 82.1% | 75.2% | 75.5% | 67.0% | 25.0% |
| VoxPopuli (WER) ↓ | 2.4% | 4.0% | — | — | — |
| Spider 2.0-Lite | 52.9% | 45.2% | 49.6% | 26.7% | 45.9% |
| GPQA Diamond | 89.9% | 88.5% | 89.9% | 82.8% | 73.6% |
| MMMLU | 90.9% | 88.7% | 84.9% | 75.3% | 89.7% |
| MMMU-Pro | 71.1% | 67.6% | 46.3% | 40.4% | 68.7% |
| SOB Value Acc | 79.5% | 77.3% | 77.9% | 75.1% | 78.4% |
- ↓ = 小さいほど良くなる(ワードエラーレート)
- — = スコアなし(モデルにはネイティブな音声入力機能がない)
- 他の行:大きいほど良くなる
OCR が我々の最初の主要ユースケースです。ユーザーからの最も大きな要望は、画像と複雑な長時間 PDF に対する OCR です。Interfaze は Chandra OCR や Reducto といった OCR プロバイダーならびに Gemini-3-Flash や GPT-5.4-Mini といった汎用モデルを凌駕します。これは単にタスク特化型の CNN エンコーダーが優秀だからというだけでなく、図やグラフのオブジェクト検出能力やトランスフォーマーの翻訳層を共有ベクトル空間において活用できるためです。
構造化出力は決定論性の重要な要素
現在存在する多くの LLM は JSON スキーマに従うことには長けていますが、正確な値でそれを埋め付けることについては苦手です。公共のベンチマークがその値の精度を測定していないため、先日 SOB(Structured Output Benchmark)をリリースしました。tl;dr:SOB はモデルに正解を含む文脈を与え、既に持っているデータを基に JSON 出力を生成させることで、テキスト、画像、音声(すべてテキストに正規化)という異なるモーダルにおいて、ミスタイプや幻覚を最も少なくしたものが精度高いかどうかを測定します。本稿全体で使用されている同じフラッシュ/ミニモデルセットと比較されています。 frontier プロ版モデルである Gemini-3.1-Pro、GPT-5.5、Claude-Opus-4.7 を含めた全 28 のモデルの SOB リーダーボードを確認するには、詳細をご覧ください。コストやコンピューティングリソースを増やさずに構造化出力を大幅に改善する余地はまだ十分にあります。X や LinkedIn で我々の研究の旅路に追随してください。
英語以外の多言語パフォーマンス
Interfaze は幅広い言語範囲において優れた多言語パフォーマンスを発揮しています。MMMLU ベンチマークの詳細を見る→
音声認識における専門型 ASR プロバイダーとの比較
VoxPopuli-Cleaned-AA において、Interfaze はワードエラーレートで 2 位を獲得しました。
音声認識推論速度
Interfaze は、1 秒の計算量あたり 209 秒の音声を書き起こします。これは Deepgram Nova-3 より約 1.5 倍高速、Scribe v2 より約 8 倍高速、Gemini-3-Flash より 11 倍以上高速です。VoxPopuli ベンチマークの詳細を見る→
始め方
SDK のセットアップ
Interfaze は Chat Completions API スタンダードをサポートしているため、OpenAI をサポートするあらゆる AI SDK でそのまま利用可能です:単に
https://api.interfaze.ai/v1 に接続すればよいだけです。Interfaze ダッシュボードから API キーを取得し、埋め込んでください。
import OpenAI from "openai"; const interfaze = new OpenAI({ baseURL: "https://api.interfaze.ai/v1", apiKey: "<your-api-key>", });
以下のすべての例で同じ
interfaze クライアントが再利用されます。完全なセットアップガイドを読む→
複雑な OCR + オブジェクト検出
多数のカラムを持つ密集したテキストと 3 つの挿絵が含まれる雑誌ページです。Interfaze は 1 つのリクエストで同一画像に対して OCR とオブジェクト検出を実行し、完全なテキストに加えてすべての図およびグラフィック要素の画素座標を返します(すべてスキーマ内)。
import { z } from "zod"; import { zodResponseFormat } from "openai/helpers/zod"; import OpenAI from "openai"; const interfaze = new OpenAI({ baseURL: "https://api.interfaze.ai/v1", apiKey: "<your-api-key>", }); const OCRObjectDetectionSchema = z.object({ text: z.string().describe("画像内のすべてのテキスト"), graphic_objects: z .array( z.object({ description: z.string(), top_left_x: z.number(), top_left_y: z.number(), bottom_right_x: z.number(), bottom_right_y: z.number(), }) ) .describe("画像内で検出されたグラフィックオブジェクト"), }); const response = await interfaze.chat.completions.create({ model: "interfaze-beta", messages: [ { role: "user", content: [ { type: "text", text: "スキーマに基づいて画像からテキストとグラフィックを抽出してください。" }, { type: "image_url", image_url: { url: "https://r2public.jigsawstack.com/interfaze/examples/dense_text_ocr_figures.png", }, }, ], }, ], response_format: zodResponseFormat(OCRObjectDetectionSchema, "ocr_object_detection_schema"), }); console.log(response.choices[0].message.content); // @ts-expect-error precontext is not typed const precontext = response.precontext; console.log("OCR の境界ボックス + 信頼スコア:", precontext[0]?.result);
JSON 出力:
- object: スキーマ応答を運搬:完全なページテキストと、各挿絵の説明および画素座標を持つ
配列。graphic_objects - precontext: 同じ応答に対しての生 OCR(行単位および単語単位の境界ボックス、信頼スコア)を運搬。
パartial モデルアクティベーションによる OCR
ハイブリッドアーキテクチャにより、完全なパラメータを使わずに特定のタスクを実行するためにモデルの一部だけをアクティベートできます。これにより高速化とコスト削減が可能ですが、トレードオフがあり、固定的で決定論的な構造化出力が得られ、各実行で整合性が保証されます。システムプロンプト内の
<task> タグを使用することで、どの部分がアクティベートされるかを制御できます。以下では、手書きの詩に対する純粋な OCR 実行を示します。
import { z } from "zod"; import { zodResponseFormat } from "openai/helpers/zod"; import OpenAI from "openai"; const interfaze = new OpenAI({ baseURL: "https://api.interfaze.ai/v1", apiKey: "<your-api-key>", }); const response = await interfaze.chat.completions.create({ model: "interfaze-beta", messages: [ { role: "system", content: "<task>ocr</task>" }, { role: "user", content: [ { type: "text", text: "この画像からすべてのテキストを抽出してください" }, { type: "image_url", image_url: { url: "https://r2public.jigsawstack.com/interfaze/examples/handwriting.jpeg", }, }, ], }, ], response_format: zodResponseFormat(z.any(), "empty_schema"), }); console.log(response.choices[0].message.content);
JSON 出力: 応答は、名前と結果を含む生タスク結果であり、直接消費可能です。
インターネットへのアクセス
Interfaze は、複数の SERP インデックスおよび独自のカrawler をスクレイピングすることで構築された独自ウェブインデックスを内蔵しています。
import { z } from "zod"; import { zodResponseFormat } from "openai/helpers/zod"; import OpenAI from "openai"; const interfaze = new OpenAI({ baseURL: "https://api.interfaze.ai/v1", apiKey: "<your-api-key>", }); const GarryTanSchema = z.object({ linkedin_url: z.string(), x_url: z.string(), first_name: z.string(), last_name: z.string(), location: z.string(), latest_education: z.string(), current_job: z.string(), followers: z.number(), experience: z.array( z.object({ company: z.string(), title: z.string(), start_date: z.string(), end_date: z.string(), }) ), }); const response = await interfaze.chat.completions.create({ model: "interfaze-beta", messages: [{ role: "user", content: "Garry Tan, Y Combinator の拡張情報" }], response_format: zodResponseFormat(GarryTanSchema, "garry_tan_enrichment_schema"), }); console.log(response.choices[0].message.content); // @ts-expect-error precontext is not typed const precontext = response.precontext; console.log("ウェブ検索結果:", precontext[0]?.result);
JSON 出力:
- object: スキーマに厳密に従った拡張プロフィールを返します。
- precontext: Interfaze が回答の根拠とするために引き寄せた生のウェブ検索結果を含みます。
長時間の音声書き起こし
下のクリップはポッドキャストエピソード(1 時間 35 分)です。Interfaze は約 50 秒で書き起こし、各チャンクに対してタイムスタンプを付与します。
import { z } from "zod"; import { zodResponseFormat } from "openai/helpers/zod"; import OpenAI from "openai"; const interfaze = new OpenAI({ baseURL: "https://api.interfaze.ai/v1", apiKey: "<your-api-key>", }); const response = await interfaze.chat.completions.create({ model: "interfaze-beta", messages: [ { role: "system", content: "<task>speech_to_text</task>" }, { role: "user", content: [ { type: "text", text: "音声ファイルを転写してください https://r2public.jigsawstack.com/interfaze/examples/stt_long_audio_sample_3.mp3" }, ], }, ], response_format: zodResponseFormat(z.any(), "empty_schema"), }); console.log(response.choices[0].message.content);
JSON 出力: 応答は以下の通り、1 時間 35 分の全期間にわたるタイムスタンプ付きチャンクを含む生タスク結果です。
ゴールズ
我々は、決定論的な AI をより効率的でアクセスしやすくするための新たな研究を継続的に実験・成長させることに興奮しています!無料で始め你自己的文書、画像、プロンプトを試してみてください。あなた方の創造性を歓迎します!
すぐに開始
- API キーを取得: Interfaze ダッシュボードにログインしてください。
- ドキュメントを読む: クイックスタートと SDK セットアップから始めてください。
- 価格帯を確認: 使用量ベースで、フラッシュ/ミニモデルと同様の価格範囲です。
さらに深く探る
- 完全なリーダーボード — すべてのベンチマーク、すべてのモデル。
- ベンチマークコード — ベンチマークの実行方法をご覧ください。
- Structured Output Benchmark — SOB リーダーボード。
情報収集
- X と LinkedIn で研究更新を追跡してください。
- Discord での会話に参加してください。
- ご質問やフィードバックは support@interfaze.ai までメールください。