Launch HN: Pulse (YC S24) – Production-grade unstructured document extraction

Summary

Pulse は、複雑な PDF およびスキャンドキュメントを、大規模言語モデル（LLM）で使用できるクリーンかつ機械可読のテキストに変換する文書抽出プラットフォームです。最新鋭のビジョン‑ランゲージモデルと従来型 OCR、レイアウト解析を組み合わせています。このシステムは、階層構造・表・チャートを保持したままドキュメントを構造化し、事前定義されたスキーマにマッピングします。レイアウト解析を言語モデリングから分離することで、Pulse は長い PDF、密集した表、混在レイアウト、および低品質スキャンの限界を克服します。

VLM（ビジョン‑ランゲージモデル）の主要な課題は信頼性です。彼らは正確な転写ではなく意味理解を最適化するため、不確実性を学習済み事前知識で解決することが多いです。Pulse は抽出した各値を元の位置に戻し、ユーザーが不確実性を検証できるようにします。これによりエラーは可視化され、監査可能になります。

このプラットフォームは、複雑な文書で制御評価を行い、ビジョンモデルを微調整し、表とチャートポイントの境界ボックス付き手作業注釈データセットを作成した後に構築されました。Pulse は使用量ベースの API アクセス（https://platform.runpulse.com/login）および Web プラットフォームで利用可能です。ドキュメントは https://docs.runpulse.com/introduction にあります。デモ動画もサイト上に掲載されており、例として 10‑K ファイル、新聞記事、および賃料リストが含まれています。

Pulse は高度に劣化したスキャンや珍しい手書きには完璧ではありませんが、エラーを完全に排除するのではなく可視化することに重点を置いています。著者は評価方法、実務で観測された失敗モード、および出力信頼性を判断するために使用されるシグナルについてコミュニティからのフィードバックを歓迎しています。また、興味のあるユーザー向けに追加文書の処理も提供します。

こんにちは HN さん、

私たちは Pulse（https://www.runpulse.com/）の共同創業者である Sid と Ritvik です。Pulse は、ハイブリッド VLM + OCR モデルを用いて LLM 向けテキストを生成するドキュメント抽出システムです。
デモ動画はこちら：https://video.runpulse.com/video/pulse-platform-walkthrough-…

この記事の後半では、特に難しいケースでの「前後比較」例へのリンクが掲載されています。Pulse が本当に何をできるか確認してみてください。

現在のビジョン‑ラングエージュモデル（VLM）の限界

最新の VLM は説得力のあるテキストを生成するのに優れていますが、OCR やデータ取り込みにはリスクがあります。説得力だけでは、正確性が求められる場面では不十分です。

ドキュメント抽出の開発を始めたとき、多くのチームが行う仮定（基盤モデルは速やかに改善し、マルチモーダルシステムは文書をよく読む）をそのまま受け入れました。小さくて整った入力では、その仮定はほぼ成立します。

しかし、本番環境で大量の実際のドキュメントを処理し始めると、制限が顕在化します。長い PDF、密集した表、混合レイアウト、低品質スキャン、財務・運用データなどは、検出が難しく修正にコストがかかる微細なエラーを露呈させます。特に表や数値フィールドでは、小さくても重要なミスが含まれていても、結果として合理的に見えることがあります。

この課題に直面したことで私たちは前進しました。複雑なドキュメントを対象とした制御評価を実施し、ビジョンモデルをファインチューニングし、真の正解が重要になるラベル付きデータセットを構築しました。多くの夜にチームはページを手作業で注釈付け（表の境界ボックスを描いたり、チャートを点ごとにラベリングしたり、数値が読めないか単なるスキャン不良かを議論）していました。このプロセスこそが、ベンチマークよりも私たちの直感を形作った要因です。

重要なのは「抽出」ではなく「信頼度」

一つ明らかになった点は、核心的な課題は抽出そのものではなく、**自信（confidence）**であるということでした。VLM は文書画像を高次元表現に埋め込み、意味理解のために最適化されており、正確な文字起こしには向いていません。このプロセスは本質的に情報が失われます。不確実性が生じると、モデルはあくまで学習した事前分布を使って解決し、曖昧さを表面化させずに済ませてしまいます。消費者向け環境では有用ですが、生産パイプラインでは検証問題が生じ、スケールアウトが難しくなります。

Pulse の設計哲学

Pulse は、このギャップを「プロンプトだけでなくシステム設計」で解決しようとした結果として誕生しました。文書理解を単一の生成ステップではなく、レイアウト解析 と 言語モデリング を分離することで対処します。

文書は階層構造や表を保持したまま構造化表現に正規化されます。
スキーママッピングが行われる前に、レイアウト解析で情報を抽出します。
抽出は事前定義されたスキーマによって制約され、抽出値は元の位置にリンクされるため、不確実性は「推測」ではなく「検証」できるようになります。

実際には、従来型のコンピュータビジョン手法、レイアウトモデル、VLM を組み合わせたハイブリッドアプローチです。単一手法だけで信頼性を確保することは困難だからです。

実例と課題

以下のドキュメントは、この作業に動機づけられた入力タイプを示しています。これらは、一般的な OCR や VLM ベースのパイプラインが苦戦したケースを代表します：

財務 10K: https://platform.runpulse.com/dashboard/examples/example1
新聞記事: https://platform.runpulse.com/dashboard/examples/example2
賃貸リスト: https://platform.runpulse.com/dashboard/examples/example3

Pulse は完璧ではありません。特に極端に劣化したスキャンや珍しい手書きには課題がありますが、改善を進めています。我々の目標は「エラーを完全に排除すること」ではなく、「エラーを可視化し、監査可能で、理由付けしやすくすること」です。

利用方法

Pulse は使用量ベースの API およびプラットフォームアクセスで利用できます。
サインアップ: https://platform.runpulse.com/login
API ドキュメント: https://docs.runpulse.com/introduction

ご意見・ご質問をお待ちしています

ドキュメント抽出の正確性評価方法、実務で観察した失敗モード、そしてアウトプットが信頼できるか判断するために依存しているシグナルについてぜひ教えてください。

追加のドキュメントを試すことも可能ですので、例を共有したい方はコメントにリンクを貼っていただければ、取り込み検証しご連絡いたします。

皆様からのフィードバックを楽しみにしています！