インターフェイス:大規模化において高い精度を実現するための新たなモデルアーキテクチャ

2026/05/12 1:22

インターフェイス:大規模化において高い精度を実現するための新たなモデルアーキテクチャ

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Interfaze は、OCR、ビジョン、音声認識(STT)、構造化出力の 9 つのハンドトゥハンドベンチマークにおいて、Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini、Grok-4.3 を凌駕する新しいモデルアーキテクチャです。その設計は、DNN/CNN モデルの専門性とオムニトランスフォーマーを融合させ、OCR、翻訳、音声処理、ウェブ抽出といった決定論的タスクにおいて高い精度と低コストを実現します。该系统は複数の主要ベンチマークでリードしており、OCRBench V2 では 70.7%、VoxPopuli-Cleaned-AA では単語誤差率が 2.4%(ネイティブオーディオ入力のモデルの中で 2 位)、olmOCR(85.7%)、GPQA Diamond(89.9%)、MMMLU(90.9%)において高い性能を示しています。

価格は、入力トークンあたり 150 ドル、出力トークンあたり 35 ドルの Gemini-3-Flash と比較可能で、コンテキストウィンドウは 1M トークン、最大出力は 32k です。モデルはテキスト、画像、音声、ファイルのモーダルを対応し、高度な推論機能は提供されていますがデフォルトでは無効化されています。Interfaze は高速な音声文字起こしを可能にしており、計算時間あたり秒ごとに最大 209 秒の音声を処理でき、Deepgram Nova-3 より約 1.5 倍、Scribe v2 より約 8 倍、Gemini-3-Flash より 11 倍以上速いです。

統合は標準的な Chat Completions API を介してシームレスに可能です(

https://api.interfaze.ai/v1
)。OpenAI 互換エンドポイントを受け付ける任意の AI SDK がサポートされます。システムには、複数の SERP スクレイプから派生した組み込みの Web インデックスと、インターネットアクセスおよび情報強化用の内部クローラーが備わっています。システムプロンプトで
<task>
タグを使用することで、特定の決定論的タスク(例:OCR、JSON 生成)のためにモデルの一部だけを活性化するPartial Model Activation が可能となり、リクエストごとに1つの焦点化されたタスクを処理することでハルシネーションと計算資源を削減します。Structured Output Benchmark (SOB) の結果は、コンテキストから JSON を生成する際にコストや計算を増加させずに高い精度を示しています。回答には、構造化された JSON に沿って信頼スコア、バウンディングボックス、生検索結果を含んだ
precontext
フィールドに生のタスクデータが含まれています。決定論的なワークロードにおいて効率的なスケーリングと低い運用コストにより、Interfaze は OCR、翻訳、音声文字起こし、構造化出力のニーズを扱う開発者に対して即座の利点を提供します。

本文

tl;dr: Interfaze は、Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini、および Grok-4.3 を上回る新しいモデルアーキテクチャです。光学文字認識(OCR)、画像認識、音声認識(STT)、構造化出力といった分野において、9 つの対決ベンチマークで優位性を示しました。人間はコンピューターレベルの業務には非効率で、間違いを犯しがちですが、意思決定や微妙なニュアンスの理解においては卓越しています。想像してみてください。人間に 50 ページの PDF を読み込ませ、各単語を別の文書上の XY 座標と対応させ、全体を中国語に翻訳させるケースです。そうすると大量のミスを起こし、人件費を多く支払い、結果を得るまで長期間を要します。トランスフォーマーモデルも同様で、人間レベルの業務やニュアンス理解においては驚異的な性能を発揮しますが、人類のような間違いを犯す特性は、創造性を支える要因でもあります。これまで私たちは、任務に対して不適切なモデルを過剰に活用してしまいました。畳み込みニューラルネットワーク(CNN)や深層ニューラルネットワーク(DNN)は 90 年代初頭から存在しており、LeNet-5 や ResNet、最近では CRNN-CTC が含まれます。これらは OCR、翻訳、GUI 検出などの特定のタスク向けに設計された深層ニューラルネットワークアーキテクチャです。データの入力・処理方法は任務ごとに特化されており、その結果特定タスクにおける精度は最高 100 倍向上します。また、境界ボックスや信頼スコアなどの有用なメタデータを生成するため、開発者が予測可能なワークフローを構築・実装できる点も利点です。ではなぜ、決定論的な業務においても多くの人がトランスフォーマー/LLM を選んでいるのでしょうか?DNN は柔軟性に欠け、学習データの質に依存し、人間レベルの微妙なニュアンスを扱うには不向きです。提供コストは低いかもしれませんが、新しいタスクへの対応のためには維持・再訓練にかかるコストが高くなります。パスポートを例にとると、CNN は境界ボックスと信頼スコアを用いて生年月日を取得できますが、その人の年齢を計算することはできません。そこで登場するのが Interfaze です。これは DNN/CNN モデルの特殊化能力とオムニトランスフォーマーを統合した新しいアーキテクチャであり、両者の長所を兼ね備えています。つまり、決定論的な業務において高い精度と低廉なコストを実現します:画像認識(画像・文書、オブジェクト検出、GUI 検出)、ウェブ情報抽出・検索、音声処理(STT、話者分離)、翻訳、ビデオ分析(近日公開予定)です。

モデル仕様

機能
コンテキストウィンドウ1M トークン
最大出力トークン数32k トークン
入力モーダルテキスト、画像、音声、ファイル
推論機能利用可能(デフォルト:無効化)

ベンチマーク

Claude Opus 4.7 や GPT 5.5 といったプロ版モデルは、コーディングや高度な推論タスクにおいて現在市場で最高の汎用型モデルですが、OCR や翻訳といった大量処理タスクではコストが高く、応答速度が遅いため一般的には使用されません。Interfaze は、類似価格帯かつ機能セットを持つ他のモデルと比較し、スケールにおける低コストを維持しつつ、最速のスピードで最大限のパフォーマンスを引き出す最適化されたアプローチを採用しています。現在、決定論的な開発者向けタスクでは主に 2 つのカテゴリのモデルが選ばれています:1 つ目は Gemini-3-Flash や GPT-5.4-Mini、Claude Sonnet 4.6(スケールにおけるパフォーマンスとコストの最良のバランス)、2 つ目は Reducto や Mistral OCR、Whisper などの特化型プロバイダーです。

詳細分析

各モデルは、OCR BENCH V2、olmOCR、RefCOCO、VoxPopuli-Cleaned-AA、SOB Value、Spider-2.0-Lite、GPQA Diamond、MMMLU、MMM U-Pro の 9 つのベンチマークで対決比較されました。Interfaze はほぼすべてのベンチマークで他モデルを凌駕し、各カテゴリに特化したモデルもまたその上で、汎用型フラッシュ/ミニモデルと同様に優れています。当社の目標は LLM を置き換えることではなく、決定論的なタスクにおける特化を目指しています。ベンチマークは OCR、オブジェクト検出、構造化出力といったカテゴリーに焦点を当て、いくつかの汎用的ベンチマーク(GPQA Diamond など)を含め、トランスフォーマーモデルから期待される問題解決能力と理解力を示しています。Interfaze の料金は Gemini-3-Flash と同等の価格帯に設定されており、入力トークンあたり 150 ドル(百万件当たり)、出力トークンあたり 35 ドル(百万件当たり)です。

ベンチマークInterfazeGemini-3-FlashClaude-Sonnet-4.6GPT-5.4-MiniGrok-4.3
OCRA70.7%55.8%54.7%52.7%54.7%
olmOCR85.7%75.3%73.9%80.1%81.9%
RefCOCO82.1%75.2%75.5%67.0%25.0%
VoxPopuli (WER) ↓2.4%4.0%
Spider 2.0-Lite52.9%45.2%49.6%26.7%45.9%
GPQA Diamond89.9%88.5%89.9%82.8%73.6%
MMMLU90.9%88.7%84.9%75.3%89.7%
MMMU-Pro71.1%67.6%46.3%40.4%68.7%
SOB Value Acc79.5%77.3%77.9%75.1%78.4%
  • ↓ = 小さいほど良くなる(ワードエラーレート)
  • — = スコアなし(モデルにはネイティブな音声入力機能がない)
  • 他の行:大きいほど良くなる

OCR が我々の最初の主要ユースケースです。ユーザーからの最も大きな要望は、画像と複雑な長時間 PDF に対する OCR です。Interfaze は Chandra OCR や Reducto といった OCR プロバイダーならびに Gemini-3-Flash や GPT-5.4-Mini といった汎用モデルを凌駕します。これは単にタスク特化型の CNN エンコーダーが優秀だからというだけでなく、図やグラフのオブジェクト検出能力やトランスフォーマーの翻訳層を共有ベクトル空間において活用できるためです。

構造化出力は決定論性の重要な要素

現在存在する多くの LLM は JSON スキーマに従うことには長けていますが、正確な値でそれを埋め付けることについては苦手です。公共のベンチマークがその値の精度を測定していないため、先日 SOB(Structured Output Benchmark)をリリースしました。tl;dr:SOB はモデルに正解を含む文脈を与え、既に持っているデータを基に JSON 出力を生成させることで、テキスト、画像、音声(すべてテキストに正規化)という異なるモーダルにおいて、ミスタイプや幻覚を最も少なくしたものが精度高いかどうかを測定します。本稿全体で使用されている同じフラッシュ/ミニモデルセットと比較されています。 frontier プロ版モデルである Gemini-3.1-Pro、GPT-5.5、Claude-Opus-4.7 を含めた全 28 のモデルの SOB リーダーボードを確認するには、詳細をご覧ください。コストやコンピューティングリソースを増やさずに構造化出力を大幅に改善する余地はまだ十分にあります。X や LinkedIn で我々の研究の旅路に追随してください。

英語以外の多言語パフォーマンス

Interfaze は幅広い言語範囲において優れた多言語パフォーマンスを発揮しています。MMMLU ベンチマークの詳細を見る→

音声認識における専門型 ASR プロバイダーとの比較

VoxPopuli-Cleaned-AA において、Interfaze はワードエラーレートで 2 位を獲得しました。

音声認識推論速度

Interfaze は、1 秒の計算量あたり 209 秒の音声を書き起こします。これは Deepgram Nova-3 より約 1.5 倍高速、Scribe v2 より約 8 倍高速、Gemini-3-Flash より 11 倍以上高速です。VoxPopuli ベンチマークの詳細を見る→

始め方

SDK のセットアップ

Interfaze は Chat Completions API スタンダードをサポートしているため、OpenAI をサポートするあらゆる AI SDK でそのまま利用可能です:単に

https://api.interfaze.ai/v1
に接続すればよいだけです。Interfaze ダッシュボードから API キーを取得し、埋め込んでください。

import OpenAI from "openai";

const interfaze = new OpenAI({
  baseURL: "https://api.interfaze.ai/v1",
  apiKey: "<your-api-key>",
});

以下のすべての例で同じ

interfaze
クライアントが再利用されます。完全なセットアップガイドを読む→

複雑な OCR + オブジェクト検出

多数のカラムを持つ密集したテキストと 3 つの挿絵が含まれる雑誌ページです。Interfaze は 1 つのリクエストで同一画像に対して OCR とオブジェクト検出を実行し、完全なテキストに加えてすべての図およびグラフィック要素の画素座標を返します(すべてスキーマ内)。

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
import OpenAI from "openai";

const interfaze = new OpenAI({
  baseURL: "https://api.interfaze.ai/v1",
  apiKey: "<your-api-key>",
});

const OCRObjectDetectionSchema = z.object({
  text: z.string().describe("画像内のすべてのテキスト"),
  graphic_objects: z
    .array(
      z.object({
        description: z.string(),
        top_left_x: z.number(),
        top_left_y: z.number(),
        bottom_right_x: z.number(),
        bottom_right_y: z.number(),
      })
    )
    .describe("画像内で検出されたグラフィックオブジェクト"),
});

const response = await interfaze.chat.completions.create({
  model: "interfaze-beta",
  messages: [
    {
      role: "user",
      content: [
        { type: "text", text: "スキーマに基づいて画像からテキストとグラフィックを抽出してください。" },
        {
          type: "image_url",
          image_url: {
            url: "https://r2public.jigsawstack.com/interfaze/examples/dense_text_ocr_figures.png",
          },
        },
      ],
    },
  ],
  response_format: zodResponseFormat(OCRObjectDetectionSchema, "ocr_object_detection_schema"),
});

console.log(response.choices[0].message.content);

// @ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("OCR の境界ボックス + 信頼スコア:", precontext[0]?.result);

JSON 出力:

  • object: スキーマ応答を運搬:完全なページテキストと、各挿絵の説明および画素座標を持つ
    graphic_objects
    配列。
  • precontext: 同じ応答に対しての生 OCR(行単位および単語単位の境界ボックス、信頼スコア)を運搬。

パartial モデルアクティベーションによる OCR

ハイブリッドアーキテクチャにより、完全なパラメータを使わずに特定のタスクを実行するためにモデルの一部だけをアクティベートできます。これにより高速化とコスト削減が可能ですが、トレードオフがあり、固定的で決定論的な構造化出力が得られ、各実行で整合性が保証されます。システムプロンプト内の

<task>
タグを使用することで、どの部分がアクティベートされるかを制御できます。以下では、手書きの詩に対する純粋な OCR 実行を示します。

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
import OpenAI from "openai";

const interfaze = new OpenAI({
  baseURL: "https://api.interfaze.ai/v1",
  apiKey: "<your-api-key>",
});

const response = await interfaze.chat.completions.create({
  model: "interfaze-beta",
  messages: [
    { role: "system", content: "<task>ocr</task>" },
    {
      role: "user",
      content: [
        { type: "text", text: "この画像からすべてのテキストを抽出してください" },
        {
          type: "image_url",
          image_url: {
            url: "https://r2public.jigsawstack.com/interfaze/examples/handwriting.jpeg",
          },
        },
      ],
    },
  ],
  response_format: zodResponseFormat(z.any(), "empty_schema"),
});

console.log(response.choices[0].message.content);

JSON 出力: 応答は、名前と結果を含む生タスク結果であり、直接消費可能です。

インターネットへのアクセス

Interfaze は、複数の SERP インデックスおよび独自のカrawler をスクレイピングすることで構築された独自ウェブインデックスを内蔵しています。

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
import OpenAI from "openai";

const interfaze = new OpenAI({
  baseURL: "https://api.interfaze.ai/v1",
  apiKey: "<your-api-key>",
});

const GarryTanSchema = z.object({
  linkedin_url: z.string(),
  x_url: z.string(),
  first_name: z.string(),
  last_name: z.string(),
  location: z.string(),
  latest_education: z.string(),
  current_job: z.string(),
  followers: z.number(),
  experience: z.array(
    z.object({
      company: z.string(),
      title: z.string(),
      start_date: z.string(),
      end_date: z.string(),
    })
  ),
});

const response = await interfaze.chat.completions.create({
  model: "interfaze-beta",
  messages: [{ role: "user", content: "Garry Tan, Y Combinator の拡張情報" }],
  response_format: zodResponseFormat(GarryTanSchema, "garry_tan_enrichment_schema"),
});

console.log(response.choices[0].message.content);

// @ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("ウェブ検索結果:", precontext[0]?.result);

JSON 出力:

  • object: スキーマに厳密に従った拡張プロフィールを返します。
  • precontext: Interfaze が回答の根拠とするために引き寄せた生のウェブ検索結果を含みます。

長時間の音声書き起こし

下のクリップはポッドキャストエピソード(1 時間 35 分)です。Interfaze は約 50 秒で書き起こし、各チャンクに対してタイムスタンプを付与します。

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
import OpenAI from "openai";

const interfaze = new OpenAI({
  baseURL: "https://api.interfaze.ai/v1",
  apiKey: "<your-api-key>",
});

const response = await interfaze.chat.completions.create({
  model: "interfaze-beta",
  messages: [
    { role: "system", content: "<task>speech_to_text</task>" },
    {
      role: "user",
      content: [
        { type: "text", text: "音声ファイルを転写してください https://r2public.jigsawstack.com/interfaze/examples/stt_long_audio_sample_3.mp3" },
      ],
    },
  ],
  response_format: zodResponseFormat(z.any(), "empty_schema"),
});

console.log(response.choices[0].message.content);

JSON 出力: 応答は以下の通り、1 時間 35 分の全期間にわたるタイムスタンプ付きチャンクを含む生タスク結果です。

ゴールズ

我々は、決定論的な AI をより効率的でアクセスしやすくするための新たな研究を継続的に実験・成長させることに興奮しています!無料で始め你自己的文書、画像、プロンプトを試してみてください。あなた方の創造性を歓迎します!

すぐに開始

  • API キーを取得: Interfaze ダッシュボードにログインしてください。
  • ドキュメントを読む: クイックスタートと SDK セットアップから始めてください。
  • 価格帯を確認: 使用量ベースで、フラッシュ/ミニモデルと同様の価格範囲です。

さらに深く探る

  • 完全なリーダーボード — すべてのベンチマーク、すべてのモデル。
  • ベンチマークコード — ベンチマークの実行方法をご覧ください。
  • Structured Output Benchmark — SOB リーダーボード。

情報収集

  • X と LinkedIn で研究更新を追跡してください。
  • Discord での会話に参加してください。
  • ご質問やフィードバックは support@interfaze.ai までメールください。

同じ日のほかのニュース

一覧に戻る →

2026/05/12 6:08

TanStack の NPM パッケージが乗っ取られました。

## Japanese Translation: GitHub は、ヘルスケア、金融サービス、製造業、政府などの業界にまたがり、エンタープライズから小規模・中規模チーム、スタートアップ、非営利団体に至るまであらゆる組織を対象とした、包括的で AI 搭載の開発プラットフォームへと進化しました。その核心となる価値は、Copilot、Spark、Models など高度な AI コード作成ツールと堅牢なセキュリティ機能を統合し、開発ライフサイクル全体を支援することにあります。主要なワークフローは GitHub Actions、Codespaces、Issues、Code Review によって可能にされ、アプリケーションのセキュリティは Advanced Security、Code Security、Secret Protection によって強化されています。アプリのモダン化、DevOps、CI/CD、DevSecOps などのユースケースに対応するソリューションが提供されています。エンタープライズ顧客には、GitHub Advanced Security、Copilot for Business、Premium Support を含む AI 搭載プラットフォームとアディオンが追加で提供されます。技術的な機能だけでなく、広範なドキュメント、コミュニティフォーラム、カスタマーサポート、Trust Center、オープンソースプログラム(Sponsors、Security Lab、Accelerator、Archive Program)を通じて協力的なエコシステムを育んでいます。この多用途でオールインワン環境は、複雑な開発プロセスの簡素化、継続的統合・デリバリーパイプラインの加速化、業界や組織規模を問わずユーザーへのソフトウェアセキュリティと生産性の向上を実現します。

2026/05/12 5:51

GitLab は、組織の人員削減と「CREDIT(クレジット)」バリューの終了を発表しました。

## Japanese Translation: GitLab は「エージェント時代」を主導するため、根本的な再編に着手しており、これは AI エージェントがほとんどの技術的ワークフローを管理し、人間は高レベルの戦略的判断に専念する転換を意味します。本年 6 月上旬までに完了させるこのシフトには、大幅な人員削減、特定の機能において最大 3 階分の管理レイヤーを撤廃する組織のフラット化、そして R&D を約 60 の小規模かつ権限を持たせたチームに再編し、エンドツーエンドの所有責任を与え直すことが含まれます。移行をサポートするためには、内部プロセスに AI エージェントを組み込み、レビュー、承認、ハンドオフを自動化し、会社の役割を最適化するとともに、自社の存在が縮小している市場においてパートナーネットワークを活用して小規模チームを支援する可能性があります(小規模なチームを持つ国では最大 30% の削減)。 同時に、GitLab は従来のサブスクリプションモデルに加え、AI エージェントタスク向けにコンシュームベースの価格設定を組み合わせたビジネスモデルに進化させ、運用オーバーヘッドの削減と、予測可能な収益と柔軟な使用量指標とのバランス実現を目指します。ユーザーにとっては、これらの変更によって摩擦が減った開発環境が提供され、より迅速なイノベーションを促し、完全に自律的かつ AI 駆動の開発サイクルへの移行を加速させます。また、GitLab は以前の価値観の枠組みを廃止し、「スピードと品質」「顧客所有」「直接的な顧客成果」に焦点を当てた 3 つの新規運営原則に移行します。 GitLab は本日、第 1 四半期および FY27(2026 fiscal year)の通年ガイダンスを維持することを再確認しました。詳細なスコープと財務影響については、取締役会承認後に 6 月 2 日の earnings call で共有される予定であり、同時に、許可された地域において 5 月 18 日までに申請が必要となるチームメンバー向けの任意での退職枠を提供しています。最終的に、この戦略的動きは GitLab を、手動のソフトウェアプロセスから完全に自律的で AI 駆動の開発サイクルへの移行における業界リーダーとしての地位を確立するものです。

2026/05/12 4:33

Java のレコードをネイティブメモリに高速でマップするためのライブラリ

## Japanese Translation: TypedMemory は、Foreign Function & Memory (FFM) API に基づいて構築された、実験的で高パフォーマンスの Java ライブラリであり、強力に型付けされた非ヒープメモリへのアクセスを簡素化します。本ライブラリは ClassFile API を使用しているため、Java 25 以降の使用を対象としており、ネイティブアクセスを有効にするために特定の JVM フラグ(例:`--enable-native-access`)の設定が必要です。本ライブラリでは `Mem.of()` を用いて Java レコードを物理メモリに直接マッピングし、`get`、`set`、`fill`、`copyTo`、`swap` などの操作をサポートします。また、型付けされたメモリアロケーション、レコードレイアウトの導出、メモリエイアウトに関する内省、既存のセグメントへのラッパー機能、アノテーションによる固定サイズ配列表場などの機能を備えています。 本 API はグラフィックパイプライン、シミュレーションシステム、ネイティブ連携層、バイナリプロトコルにおけるコードを大幅に削減しますが、以下の制限点にはユーザーが留意する必要があります:レコード内部は変長データのためにヒープアロケートされた配列に依存しており、ゼロコピー動作を必要とする厳密な非ヒープシナリオではパフォーマンスに影響を与える可能性があります。また、ユニオン型はまだサポートされていません。コア API は現在 Apache License 2.0 に基づいて実験的であり、新機能(単純な長整数アドレスを超えたポインタ型フィールドなど)の追加に伴い設計が変化し、互換性を損なう変更が生じる可能性があります。本ライブラリは Maven Central で `io.github.mambastudio:typedmemory:v0.1.0` として入手可能です。