Launch HN: Pulse (YC S24) – Production-grade unstructured document extraction

2025/12/19 0:35

Launch HN: Pulse (YC S24) – Production-grade unstructured document extraction

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Summary

Pulse は、複雑な PDF およびスキャンドキュメントを、大規模言語モデル(LLM)で使用できるクリーンかつ機械可読のテキストに変換する文書抽出プラットフォームです。最新鋭のビジョン‑ランゲージ モデルと従来型 OCR、レイアウト解析を組み合わせています。このシステムは、階層構造・表・チャートを保持したままドキュメントを構造化し、事前定義されたスキーマにマッピングします。レイアウト解析を言語モデリングから分離することで、Pulse は長い PDF、密集した表、混在レイアウト、および低品質スキャンの限界を克服します。

VLM(ビジョン‑ランゲージ モデル)の主要な課題は信頼性です。彼らは正確な転写ではなく意味理解を最適化するため、不確実性を学習済み事前知識で解決することが多いです。Pulse は抽出した各値を元の位置に戻し、ユーザーが不確実性を検証できるようにします。これによりエラーは可視化され、監査可能になります。

このプラットフォームは、複雑な文書で制御評価を行い、ビジョンモデルを微調整し、表とチャートポイントの境界ボックス付き手作業注釈データセットを作成した後に構築されました。Pulse は使用量ベースの API アクセス(https://platform.runpulse.com/login)および Web プラットフォームで利用可能です。ドキュメントは https://docs.runpulse.com/introduction にあります。デモ動画もサイト上に掲載されており、例として 10‑K ファイル、新聞記事、および賃料リストが含まれています。

Pulse は高度に劣化したスキャンや珍しい手書きには完璧ではありませんが、エラーを完全に排除するのではなく可視化することに重点を置いています。著者は評価方法、実務で観測された失敗モード、および出力信頼性を判断するために使用されるシグナルについてコミュニティからのフィードバックを歓迎しています。また、興味のあるユーザー向けに追加文書の処理も提供します。

本文

こんにちは HN さん、

私たちは Pulse(https://www.runpulse.com/)の共同創業者である Sid と Ritvik です。Pulse は、ハイブリッド VLM + OCR モデルを用いて LLM 向けテキストを生成するドキュメント抽出システムです。
デモ動画はこちら:https://video.runpulse.com/video/pulse-platform-walkthrough-…

この記事の後半では、特に難しいケースでの「前後比較」例へのリンクが掲載されています。Pulse が本当に何をできるか確認してみてください。


現在のビジョン‑ラングエージュモデル(VLM)の限界

最新の VLM は説得力のあるテキストを生成するのに優れていますが、OCR やデータ取り込みにはリスクがあります。説得力だけでは、正確性が求められる場面では不十分です。

ドキュメント抽出の開発を始めたとき、多くのチームが行う仮定(基盤モデルは速やかに改善し、マルチモーダルシステムは文書をよく読む)をそのまま受け入れました。小さくて整った入力では、その仮定はほぼ成立します。

しかし、本番環境で大量の実際のドキュメントを処理し始めると、制限が顕在化します。長い PDF、密集した表、混合レイアウト、低品質スキャン、財務・運用データなどは、検出が難しく修正にコストがかかる微細なエラーを露呈させます。特に表や数値フィールドでは、小さくても重要なミスが含まれていても、結果として合理的に見えることがあります。

この課題に直面したことで私たちは前進しました。複雑なドキュメントを対象とした制御評価を実施し、ビジョンモデルをファインチューニングし、真の正解が重要になるラベル付きデータセットを構築しました。多くの夜にチームはページを手作業で注釈付け(表の境界ボックスを描いたり、チャートを点ごとにラベリングしたり、数値が読めないか単なるスキャン不良かを議論)していました。このプロセスこそが、ベンチマークよりも私たちの直感を形作った要因です。

重要なのは「抽出」ではなく「信頼度」

一つ明らかになった点は、核心的な課題は抽出そのものではなく、**自信(confidence)**であるということでした。VLM は文書画像を高次元表現に埋め込み、意味理解のために最適化されており、正確な文字起こしには向いていません。このプロセスは本質的に情報が失われます。不確実性が生じると、モデルはあくまで学習した事前分布を使って解決し、曖昧さを表面化させずに済ませてしまいます。消費者向け環境では有用ですが、生産パイプラインでは検証問題が生じ、スケールアウトが難しくなります。

Pulse の設計哲学

Pulse は、このギャップを「プロンプトだけでなくシステム設計」で解決しようとした結果として誕生しました。文書理解を単一の生成ステップではなく、レイアウト解析言語モデリング を分離することで対処します。

  1. 文書は階層構造や表を保持したまま構造化表現に正規化されます。
  2. スキーママッピングが行われる前に、レイアウト解析で情報を抽出します。
  3. 抽出は事前定義されたスキーマによって制約され、抽出値は元の位置にリンクされるため、不確実性は「推測」ではなく「検証」できるようになります。

実際には、従来型のコンピュータビジョン手法、レイアウトモデル、VLM を組み合わせたハイブリッドアプローチです。単一手法だけで信頼性を確保することは困難だからです。

実例と課題

以下のドキュメントは、この作業に動機づけられた入力タイプを示しています。これらは、一般的な OCR や VLM ベースのパイプラインが苦戦したケースを代表します:

Pulse は完璧ではありません。特に極端に劣化したスキャンや珍しい手書きには課題がありますが、改善を進めています。我々の目標は「エラーを完全に排除すること」ではなく、「エラーを可視化し、監査可能で、理由付けしやすくすること」です。

利用方法

Pulse は使用量ベースの API およびプラットフォームアクセスで利用できます。
サインアップ: https://platform.runpulse.com/login
API ドキュメント: https://docs.runpulse.com/introduction


ご意見・ご質問をお待ちしています

ドキュメント抽出の正確性評価方法、実務で観察した失敗モード、そしてアウトプットが信頼できるか判断するために依存しているシグナルについてぜひ教えてください。

追加のドキュメントを試すことも可能ですので、例を共有したい方はコメントにリンクを貼っていただければ、取り込み検証しご連絡いたします。

皆様からのフィードバックを楽しみにしています!

同じ日のほかのニュース

一覧に戻る →

2025/12/19 4:08

We pwned X, Vercel, Cursor, and Discord through a supply-chain attack

## Japanese Translation: Discordの新しいドキュメントプラットフォーム、Mintlifyにおいて、`/_mintlify/_static/[subdomain]/[…route]` エンドポイントを介して配信される任意の静的ファイルに悪意あるJavaScriptを注入できるクロスサイトスクリプティング(XSS)脆弱性が判明しました。16歳の高校生研究者は、Discord のドメインを指すSVG内にコードを埋め込み、そのリンクを開いた際にスクリプトが実行されることで、このサプライチェーン脆弱性を検証し、Mintlify の全顧客に影響する可能性があることを示しました。この欠陥は「xyzeva」という友人によって独立して確認され、両者は協力してテストと開示を行いました。報告後、Discord はドキュメントの公開を2時間停止し、以前のプラットフォームに戻し、すべての Mintlify ルートを削除(インシデントリンク: https://discordstatus.com/incidents/by04x5gnnng3)し、Mintlify は Slack を通じて問題を修正しました。研究者たちは合計で約11,000ドルの報奨金(Discordから4,000ドル、残りは Mintlify から)を受け取りました。この事例は、Twitter (X)、Vercel、Cursor、Discord 自体など多くのハイプロファイルユーザーに脅威を与える可能性がある単一のサードパーティコンポーネントのリスクを浮き彫りにし、外部サービスへのより厳格な検証と広範なセキュリティ監査の必要性を強調しています。

2025/12/17 6:04

Texas is suing all of the big TV makers for spying on what you watch

## Japanese Translation: > **概要:** > テキサス州司法長官ケン・パクストンは火曜日にソニー、サムスン、LG、ヒセン、TCL を対象に訴訟を提起し、同社のテレビが自動コンテンツ認識(ACR)を使用して視聴者の視聴内容を秘密裏に記録していると主張した。ACR はテレビ番組、ストリーミングサービス、YouTube、セキュリティカメラ、Apple AirPlay/Google Cast、および HDMI 接続デバイスなど、多岐にわたるソースから視聴覚データを取得し、訴訟ではメーカーがユーザーに対して隠れたまたは曖昧な開示で ACR の起動を促すと主張されている。サムスンとヒセンは 500 ミリ秒ごとにスクリーンショットを取得し、パクストンはデータがユーザーの知識なしに各社へ送信され、ターゲティング広告のために販売されると述べている。訴訟はテキサス州詐欺取引慣行法(Deceptive Trade Practices Act)を引用し、民事罰金およびテキサス州居住者からの ACR データ収集・共有・販売の停止を求めている。パクストンはまた TCL とヒセンの中国との関係に懸念を示し、同社のテレビを「中国支援監視デバイス」と呼んでいる。訴訟は Vizio が 2017 年に FTC およびニュージャージー州と合意した 220 万ドルの和解金を参照しており、類似の主張があったことを示している。サムスン、ソニー、LG、ヒセン、および TCL はまだコメント要請に応じていない。パクストンは「テレビを所有することは、ビッグテックや外国対立勢力に個人情報を渡すことを意味しない」と述べ、プライバシー保護への重点を強調した。

2025/12/19 3:55

How China built its ‘Manhattan Project’ to rival the West in AI chips

## Japanese Translation: **改善された要約** 深圳の研究所が、極紫外線(EUV)リソグラフィを使用して高度な半導体チップを製造できるプロトタイプを完成させました。EUVリソグラフィは、人間の髪の数千倍薄い回路をシリコンウェーハに刻むプロセスです。この機械は工場全床面積のほぼすべてを占める規模で、2025年初頭に完成し、現在テスト中です。元ASMLエンジニアがオランダ企業のEUV装置を逆解析して構築したもので、西側企業が長らく独占してきた技術です。プロトタイプが意図通りに機能すれば、中国はより細密な回路を持つチップを製造できるようになり、AIシステムやスマートフォン、高度兵器の性能向上につながります。この進展は、西側の独占的半導体製造能力から重要な技術が移転する可能性があり、世界のサプライチェーンと競争構造を変えることになるでしょう。

Launch HN: Pulse (YC S24) – Production-grade unstructured document extraction | そっか~ニュース