
2026/07/03 4:10
Claude-実映像化-すべてのLLMに動画を見せる機能
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
最も重要な点は、
claude-real-video が大規模言語モデル(LLM)にビデオファイルや YouTube の URL をユーザーのローカルマシン上で完全に処理させ、クラウドへのアップロードを回避させることです。パフォーマンスは、すべての画像を送信するのではなく、視覚的なシーン変化と密度フロアリングに基づいてインテリジェントにキーフレームを選択することで最適化され、また重複したショットを再送信しないようにスライディングウィンドウによる重複削除が行われます。文字起こしにおいて、ツールは速度と精度のために埋め込み字幕またはサイドカーファイル(.srt、.vtt)を優先し、字幕や音声がない場合にのみ Whisper を呼び出します。必要に応じて --keep-audio フラグにより、音声を无损圧縮(.m4a)で保存できます。このソフトウェアはメディア処理のために ffmpeg/ffprobe および多種類のソースからコンテンツを取得するために yt-dlp という一般的なシステム依存性を必要とし、Netscape クッキーファイルを使用してログイン制限付きのビデオも扱えます。macOS、Windows、Linux の環境でシームレスに動作します。ユーザーはコマンドラインインターフェース(crv)を通じてツールの操作を行ったり、Python 関数をスクリプトに直接インポートする(例:claude_real_video.process)ことで利用できます。ツールは出力をフレーム(.jpg)、文字起こし(.txt)、そして保持/破棄の判断をまとめたマニフェストという形式で crv-out/ フォルダに整理して、アクセスを容易にします。--scene、--dedup-threshold、--report、--fps-floor などの設定フラグにより、ユーザーは視覚感度、ピクセル変化の要件、破棄されたフレームの可視化、および最小フレームレートを設定することができます。MIT ライセンスの下にあり、ツールを再度実行すると既存の出力ディレクトリを上書きします。本文
クロード等 LLM の動画処理を可能にするツール claude-real-video
入門
claude-real-video多くの AI ツール(ChatGPT や Gemini)は動画を真の「視聴」ではなく、字幕や固定間隔でのフレームサンプリングで処理しており、高速カットを見逃すなどの課題があります。
はローカル環境で動作し、シーンの変化点に基づいて重要フレームを選択、重複を除去、音声トランスクリプトを行い、あらゆる LLM が理解しやすいクリーンなフォルダを生成します。データは一切クラウドへアップロードされません。claude-real-video
なぜ単純なサンプリングではダメなのか?
既存の方法(固定間隔抽出)と
claude-real-video のアプローチの違いは以下の通りです。
| 機能 | 固定間隔サンプリング(既存ツール/Gemini) | |
|---|---|---|
| フレーム選定 | N 秒ごとに抽出 | シーン変更検出+密度基準 |
| 反復ショット | 毎回再送される | スライドウィンドウによる重複排除(各ショットを 1 度だけ処理) |
| 静止スライド | ~600 枚以上のほぼ同一フレーム | 重複排除により1 枚に圧縮 |
| 高速カット編集 reel | サンプル間のフレームを見逃す | 各視覚変化を検知・捕捉 |
| 音声処理 | しばしば無視される | Whisper を用いたトランスクリプト+言語判定付き |
| データの所在地 | 多くの場合、クラウドへアップロード | ご自身のマシンに留まります |
| 入力形式 | ローカルファイルのみ | URL (yt-dlp) またはローカルファイル対応 |
モデルにはより少なくても意味のあるフレームを提供することで、コストの低いコンテキスト内で優れた理解力を発揮させることができます。
インストールと環境構築
まずは必要パッケージとシステム要件を確認・インストールします。
依存ライブラリ
pip install claude-real-video # コア機能(フレーム抽出+重複排除) pip install "claude-real-video[whisper]" # +音声トランスクリプト機能 # または python -m pip install openai-whisper # 別途 Whisper をインストールする場合
システム要件:ffmpeg
ffmpegフレーム抽出や音声処理には
ffmpeg / ffprobe が必要です。Python の pip ではインストールできないため、事前に OS 別コマンドで導入してください。
| OS | コマンド |
|---|---|
| macOS | |
| Linux | (またはお使いのディストリビューションのパッケージマネージャ) |
| Windows | または ※ビルドファイルダウンロード時: フォルダをシステム PATH に追加 |
PATH への登録確認: 特に Windows の場合は、コマンドプロンプト上で
ffmpeg コマンドが認識できるか確認してください。
注意: Python 3.10 以降をお勧めします。
使用方法
基本的には CLI コマンドを使用します。
ベースとなるコマンド
crv "https://www.youtube.com/watch?v=..." # → crv-out/frames/*.jpg + crv-out/transcript.txt + crv-out/MANIFEST.txt python -m claude_real_video ... # "crv" コマンドのエイリアスとしても機能
よく使うオプション例
# 1. YouTube / Instagram / TikTok の URL を指定する crv "https://www.instagram.com/reel/XXXX/" # 2. ローカルファイルを使用し、英語トランスクリプトを出力(./out) crv lecture.mp4 -o out --lang en # 3. フレームのみ抽出(音声トランスクリプションなし) crv clip.mp4 --no-transcribe # 4. ログイン制限付き動画:Netscape クッキーファイルを渡す crv "https://..." --cookies cookies.txt
生成される出力構成
処理が完了すると以下のファイル群が出力されます。これらをドラッグ&ドロップで LLM(Claude, ChatGPT など)に提示すれば利用可能です。
: 重要フレームの画像frames/*.jpg
: 音声・字幕に基づくテキスト化データtranscript.txt
: 動画全体の要約情報MANIFEST.txt
オプション一覧详解挙
詳細な制御を行う場合の設定項目です。
| フラグ | デフォルト値 | 意味と解説 |
|---|---|---|
| | 出力ディレクトリの名前指定 |
| | シーン変更の感度。数値が小さいほどフレーム検出数が増える |
| | N 秒間に少なくとも 1 フレームを確保する基準(低速動画対応) |
| | 出力されるフレーム総数の上限(ハードキャップ) |
| | Whisper の言語指定 (, , など) |
| | 新しいフレームとみなすための画素変化率の閾値 (%)。数値が大きいほどフレーム数は減少する |
| | 保持された最後の N フレームと比較対象とする。既に視認済みはカットアウト後に再送されない( にすると連続性のみ判定) |
| | 破棄されたフレームを に保存し、 で保持/破棄の判断理由を表示する。チューニング推奨 |
| | 音声トランスクリプション処理をスキップする |
| | 完全なサウンドトラック () を保存する。聴覚処理可能なモデル(Gemini, GPT-4o)で音楽や調子を「聞く」場合に有効 |
| | ログイン制限ありのソースへのアクセス用 Netscape クッキーファイルパス |
Python スクリプトから利用する場合
プログラム内で直接処理したい場合は、以下のように利用できます。
from claude_real_video import process # YouTube 動画を読み込み、出力ディレクトリを "out" に指定 r = process("https://youtu.be/...", "out", lang="en") print(f"処理されたフレーム数: {r.frame_count}") print(f"トランスクリプトのパス: {r.transcript_path}")
仕組みの詳細(内部プロセス)
- 取得 (Fetch)
- URL の場合:
を使用してダウンロード(クッキーオプション付き)。yt-dlp - ローカルファイルの場合:コピーのみ。
- URL の場合:
- 抽出 (Extract)
を利用。シーン変更箇所と密度基準(ffmpeg
)を時系列順に抽出。高速カットと低速スクリーンキャストの双方に対応。--fps-floor
- 重複排除 (Dedup)
- 直近
のフレームスライドウィンドウに対して、実際の画素差(ダウンコンバートした RGB など知覚的ハッシュを使用)を比較。--dedup-window - 「A→B→A」のような反復カットでも、モデルが既に視認したシーンは再送しない。
を有効化すると、破棄されたフレームと判断差分 (--report
) が記述された%
生成が可能。report.html
- 直近
- テキスト (Text)
- 既存の
埋め込み字幕がある場合は優先利用(高速かつ正確)。.srt/.vtt - なければ音声を Whisper でトランスクリプト化。音声なし場合はスキップ。
- 既存の
- 音声 (Audio) (オプション)
を指定すると、オリジナルサウンドトラック (--keep-audio
) を損失なしで保存。聴覚処理モデルが音楽・効果音を認識可能になる。audio.m4a
- マニフェスト (Manifest)
- 動画の要約情報を
に出力し、LLM が容易に読み込める形式で提供する。MANIFEST.txt
- 動画の要約情報を
まとめ:多角的な理解を可能にする
このツールにより、モデルは以下の三つのチャネルを通じて動画を理解できます。
- キーフレーム(画像) → 動画を見ます
- トランスクリプト(テキスト) → 文章を読めます
指定(音響データ) → 音楽やトーンを聴きます--keep-audio
注:トランスクリプトは全てのモデルが読めるプレーンテキストです。ツールは字幕焼き付けを行わず、これはオプション機能です。
注意事項とライセンス
- 著作権・利用制限: 著作権で保護されたコンテンツや、アクセス権限のない資料のダウンロードは禁止されます。
はご自身の許可された利用環境でのみ使用してください。--cookies - セキュリティ: リポジトリ内などに認証情報(クレデンシャル)を含めないでください。
- 上書き動作: 複数回実行する場合、出力ディレクトリは上書きされます。
MIT ライセンス