
2026/07/01 22:48
HN 公開:Parsewise (YC P25) – ドキュメント間で推論を行うための API
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Parsewise は、構造化されていないドキュメントを正確でスキーマ準拠のデータに変換し、かつ完全な系譜と出典を保ち続ける変革的な API を導入しています。Palantir や Bain といったエリート企業の 10 年以上にわたる経験に基づき構築されたこのソリューションは、ファイル数制限、高いレイテンシ、入力形式の制約などの LLM の限界に対処するために、モデル最適化単体からのアプローチではなく、「人間が利用するハネス」へ重点を移し、信頼性と検証時間を最適化しています。標準的なアプローチとは異なり、Parsewise は矛盾する情報を解決し不確実性を強調するための明示的な規則を持つ自己改善型エージェントを採用しています。その独自のアーキテクチャは、vLLM を高速な解析のために用い、大規模モデルを高レベルの意思決定のために使用し、RAG サンプリングを回避して網羅的な価値探索を実現します。この技術はモデル非依存(視覚的推論では Gemini で最も優れた結果を示す)であり、プライベートネットワークでの展開も可能なクラウド非依存です。Databricks OfficeQA ベンチマークにおいて Claude Fable を上回ることで業界最良のパフォーマンスを達成しています。単語レベルの出典を提供し、一貫性の不一致を明示的にフラグ(警告)することで、AI 生成の結果に対する不可欠な信頼を構築します。利用者は、公衆 API エンドポイントを通じてこれらの機能を探索したり、保険契約書や転写された通話など複雑な情報源からの抽出を示すデモビデオを活用したりすることで、時間のかかる手動検証プロセスから自動化され信頼性の高いデータ抽出への変革に乗り込むことができます。
本文
HN ランチ:Parsewise – 文書間を横断した「推論」を実現する ETL API
コンセプトと課題の解決
- 構造化されたデータ変換
- 非構造化データ(PDF、Excel など)を一括投入し、スキーマに準拠した形式へ自動変換。
- 単なるポイントごとの抽出ではなく、**複数の文書を超えて解決された値の線形性(トレース可能性)**を保証。
- 解決する課題
- システム側の制約: 処理可能ファイル数、入力形式、コスト、レイテンシの問題。
- 人間側の課題: 「結果を素早く検証する手段がない」という痛手。
- 提供価値
- 技術チームが非構造化データの ETL を簡素化。
- 事業領域の専門家を連携させ、即時検証可能な仕組みを提供。
クライアントの声
「保険契約書 PDF、通話記録、メールなどの情報からデータを抽出したいです。単にページごとにスキーマへ押し込めるのではなく、『エージェント的な』アプローチを求めています。情報は複数の文書にまたがる可能性があり、何を抽出すべきかを**「推論」できる機能**が必要です。」
創業者の背景と強み
- 長年の経験: 構造化データ変換および分析・統合分野で約 10 年間の経験。
- 主要メンバー:
- Greg: Palantir で古典的な ETL と AI の組み合わせたワークフロー開発に携わった実績。
- Max: Bain で金融セクターにおける高度な複雑なデータ分析を行っていた経験。
- 対象顧客との親和性: 金融や複雑なドメイン知識が必要な既存顧客の状況と強く一致。
テクノロジーと仕組み
- 処理フロー
- PDF や Excel を含む数百〜数千件のファイルを一度に受入。
- すべての値が複数文書レベルで単語単位まで遡って確認可能なデータを出力(vLLM 使用)。
- 効率的な大規模・網羅的な検索には小規模モデルを使用。
- 解決意思決定や不整合の提示には、より大規模なモデルを採用。
- 自己改善型アジェント定義
- ユーザーが定義:許容される情報源、値の統合ロジック、不確実性の有無などのルール。
- 最終ユーザーにハイライトされた結果: 推論の根拠を明確にする設計。
- デプロイとモデル
- モデルやクラウド環境を選ばず、プライベートネットワーク内での展開も可能。
- Gemini モデルを用いた視覚的推論で特に優れた結果。
- Databricks OfficeQA ベンチマークにおいて SOTA を達成し、Claude Fable を上回る堅牢な「根拠に基づく推論」を実現。
「網羅性」と「検証可能性」への重点
- RAG との違い
- サンプリングではなく、与えられたクエリに対して関連するすべての値を網羅的に発見。
- 単なるデータパース(第一段階)を超えた深い分析が可能。
- 人間中心の設計 (Human Harness)
- モデルの最適化だけでなく、導入時の摩擦点である**「検証可能性」**を最優先。
- 信頼性の確立に必要な時間とクリック数を最小化するアプローチ。
- 出力結果への信頼性向上に注力。
コミュニティへのご招待
- トライアル実施: 複雑な文書課題への対応を試してみてください。
- フィードバックの歓迎:
- 製品の拡張アイデアや品質向上に向けた提案を心からお待ちしております。
- コミュニティからの声を製品開発に反映させていきます。