
2026/04/07 1:13
**Reducto、Deep Extract をリリース**
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
要約
Deep Extract は、自己の出力を自動的に検証し修正し続けるエージェント・イン・ザ・ループシステムであり、事前定義された品質閾値に達するまでプロセスを繰り返すことで、人間によるレビューを劇的に削減します。製品ベータ版では、最大 2,500 ページの文書から 2,800 万件以上のフィールドを抽出し、高価値アイテムで 99–100 % の精度を一貫して達成しています(専門ラベル付け担当者を上回ります)。
システムはサブエージェントループ(抽出 → 検証 → 再抽出)を通じて動作し、請求書や財務諸表のような複雑で多ページにわたる文書で、単一パスモデルが見落としがちな欠損または不整合項目を検知します。Reducto パートナーとのベータテストでは、精度が 10–20 % からほぼ完璧へと向上しました(対象文書は郡の支払報告書、為替ポジション、農業請求書、牛販売請求書、住宅許可申請、職務詳細報告書など多岐にわたります)。
Deep Extract は現在、システムプロンプトでオプションと検証基準を設定できる構成可能な機能として利用できます。引用を有効化すると、監査トレイル用の詳細バウンディングボックスが追加されます。企業チームは Reducto に連絡して適合性評価を受けられます。単一抽出呼び出しより時間はかかりますが、Deep Extract は大規模文書(例:500 ページのファンドステートメント)に対して手作業でフィールドごとにレビューするよりも高速・低コスト・安定しています。詳細なドキュメントは docs.reducto.ai にあります。deep_extract: true
本文
本日、構造化抽出のためにこれまでで最も強力なアップデート「Deep Extract」をリリースしました。
Deep Extract は、アウトプットを自ら検証・修正しながら結果が正確になるまで繰り返す「エージェント―イン‑ザ‑ループ」アプローチです。人間が介在する仕組みと同様に、レビュワーの負担を軽減しつつ、自律的な検証サイクルで精度への責任を自ら担います。
長い項目リスト(請求書の行項目、ブローカー取引明細、機材マニフェストなど)を扱う際に特に有効です。Deep Extract は本番ベータ段階で最大2,500ページまでの文書から2,800万以上のフィールドを抽出しており、可能性はさらに拡大中です。重要な文書では99〜100%のフィールド精度を実現し、専門的な人間ラベラーよりも高い性能を示しています。
長期抽出ソリューションで直面する課題
過去1年間にわたり、顧客からは「長大かつ複雑な文書(数十ページの請求書や何百ページにも及ぶ財務諸表)で既存パイプラインが崩壊している」という声を頻繁に聞いていました。合計金額が一致せず、行項目が完全に落ちてしまうケースも多かったです。
対策として尋ねるとほぼ同じ回答が返ってきました:「人間―イン‑ザ‑ループ(HITL)を雇い、出力を手動で確認させている」。
問題はモデルが文書を読むのが下手というわけではなく、単一パス抽出には自らのミスを検知する仕組みがないためです。長時間連続で同じ作業を行うとモデルは省略や短絡的な処理(エントリの統合・飛ばし)に走りがちです。この問題は、引用情報が必要な場合にさらに悪化します。多くの顧客は出力を証明するためにそれらを要求しています。
Reducto のエージェント―ハーネスアプローチ
長期的視点のエージェントとエージェント―ハーネス構成が登場したことで、より良い方法が示唆されました。もし他領域で複雑な多段階タスクを確実に遂行できるなら、抽出にも同様のアプローチ(問題分解・検証・反復)が有効です。
Deep Extract はその規律を自動化抽出へ導入します。単一パスではなく、エージェント的ループを実行:
- 抽出
- ソース文書と照合して検証
- 欠損・不整合項目の特定
- 再抽出(品質閾値に達するまで)
複雑な文書を一つのモノリシックタスクとして扱うのではなく、Deep Extract はサブエージェントを配置しそれぞれの部分を攻略します。これにより数千行、何百ページにも及ぶ文書でも高精度を維持できます。
重要なのは「正しい」状態をシステムプロンプトで直接定義できる点です。定義が無い場合でも Deep Extract は適切な基準を知的に決定します。
例:
- 請求書:「すべての行項目の合計が記載された総額と一致すること」
- 財務諸表:「資産=負債+純資産であることを確認」
この定義無しでは、人間がすべてのフィールドを手作業でチェックしなければならず、長さに応じて数時間・数日かかる可能性があります。
引用フラグを有効にすると、出力には抽出された全フィールドの詳細な境界ボックスも含まれます。これは監査トレイル、人間レビュー作業、そして抽出値を元文書上の正確な位置へ追跡する必要があるすべてのアプリケーションで強力です。
実際の本番ケースで Deep Extract がもたらす効果
ベータテスト期間中、Reducto のデザインパートナーと緊密に協力し、実世界の文書で Deep Extract が有効かを検証しました。多くのエンジニアリングチームは他社ソリューションを試したものの効果が得られませんでした。
その他のユースケース:
- カウンティの支払報告(転送番号、チェック番号、価格・説明・支払日等)
- アクティブな為替ポジションレポート(シンボル、コストベース、未実現損益)
- 農業請求書(請求番号、CHQ 番号/日付、金額、控除、純額等)
- 牛肉販売請求書、カウンティ支払承認レポート、住宅許可申請書、ジョブ詳細レポート
各行項目は10+ 列を考慮する必要があり、文書は数千ページに及びます。顧客は Frontier モデルで 10–20%のフィールド精度から Reducto の Deep Extract に切り替えるだけで 99–100%へと飛躍しました。
Deep Extract はより多くの作業を行うため、標準的な抽出コールより時間がかかります。しかし、500ページ規模の基金報告書を人間がフィールドごとにレビューする実際の代替策と比較すると、速くて安価で一貫したスケーラビリティを提供します。
さあ、今日から始めましょう
Deep Extract は現在、Extract エンドポイントの設定として利用可能です。
deep_extract: true を抽出設定に追加し、オプションでシステムプロンプトに検証基準を加えてください。
- 開発者向け:完全なドキュメントは docs.reducto.ai
- エンタープライズチーム向け:スケールで高リスク文書を処理しており、Deep Extract が適切かどうか検討したい場合は直接お問い合わせください。
ドキュメントとの対話の最前線をさらに押し上げることにワクワクしています。