Claude-実映像化-すべてのLLMに動画を見せる機能

2026/07/03 4:10

Claude-実映像化-すべてのLLMに動画を見せる機能

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

最も重要な点は、

claude-real-video
が大規模言語モデル(LLM)にビデオファイルや YouTube の URL をユーザーのローカルマシン上で完全に処理させ、クラウドへのアップロードを回避させることです。パフォーマンスは、すべての画像を送信するのではなく、視覚的なシーン変化と密度フロアリングに基づいてインテリジェントにキーフレームを選択することで最適化され、また重複したショットを再送信しないようにスライディングウィンドウによる重複削除が行われます。文字起こしにおいて、ツールは速度と精度のために埋め込み字幕またはサイドカーファイル(
.srt
.vtt
)を優先し、字幕や音声がない場合にのみ Whisper を呼び出します。必要に応じて
--keep-audio
フラグにより、音声を无损圧縮(
.m4a
)で保存できます。このソフトウェアはメディア処理のために
ffmpeg
/
ffprobe
および多種類のソースからコンテンツを取得するために
yt-dlp
という一般的なシステム依存性を必要とし、Netscape クッキーファイルを使用してログイン制限付きのビデオも扱えます。macOS、Windows、Linux の環境でシームレスに動作します。ユーザーはコマンドラインインターフェース(
crv
)を通じてツールの操作を行ったり、Python 関数をスクリプトに直接インポートする(例:
claude_real_video.process
)ことで利用できます。ツールは出力をフレーム(
.jpg
)、文字起こし(
.txt
)、そして保持/破棄の判断をまとめたマニフェストという形式で
crv-out/
フォルダに整理して、アクセスを容易にします。
--scene
--dedup-threshold
--report
--fps-floor
などの設定フラグにより、ユーザーは視覚感度、ピクセル変化の要件、破棄されたフレームの可視化、および最小フレームレートを設定することができます。MIT ライセンスの下にあり、ツールを再度実行すると既存の出力ディレクトリを上書きします。

本文

クロード等 LLM の動画処理を可能にするツール
claude-real-video
入門

多くの AI ツール(ChatGPT や Gemini)は動画を真の「視聴」ではなく、字幕や固定間隔でのフレームサンプリングで処理しており、高速カットを見逃すなどの課題があります。

claude-real-video
はローカル環境で動作し、シーンの変化点に基づいて重要フレームを選択、重複を除去、音声トランスクリプトを行い、あらゆる LLM が理解しやすいクリーンなフォルダを生成します。データは一切クラウドへアップロードされません

なぜ単純なサンプリングではダメなのか?

既存の方法(固定間隔抽出)と

claude-real-video
のアプローチの違いは以下の通りです。

機能固定間隔サンプリング(既存ツール/Gemini)
claude-real-video
フレーム選定N 秒ごとに抽出シーン変更検出+密度基準
反復ショット毎回再送されるスライドウィンドウによる重複排除(各ショットを 1 度だけ処理)
静止スライド~600 枚以上のほぼ同一フレーム重複排除により1 枚に圧縮
高速カット編集 reelサンプル間のフレームを見逃す各視覚変化を検知・捕捉
音声処理しばしば無視されるWhisper を用いたトランスクリプト+言語判定付き
データの所在地多くの場合、クラウドへアップロードご自身のマシンに留まります
入力形式ローカルファイルのみURL (yt-dlp) またはローカルファイル対応

モデルにはより少なくても意味のあるフレームを提供することで、コストの低いコンテキスト内で優れた理解力を発揮させることができます。

インストールと環境構築

まずは必要パッケージとシステム要件を確認・インストールします。

依存ライブラリ

pip install claude-real-video              # コア機能(フレーム抽出+重複排除)
pip install "claude-real-video[whisper]"   # +音声トランスクリプト機能
# または
python -m pip install openai-whisper       # 別途 Whisper をインストールする場合

システム要件:
ffmpeg

フレーム抽出や音声処理には

ffmpeg / ffprobe
が必要です。Python の
pip
ではインストールできないため、事前に OS 別コマンドで導入してください。

OSコマンド
macOS
brew install ffmpeg
Linux
sudo apt install ffmpeg
(またはお使いのディストリビューションのパッケージマネージャ)
Windows
winget install Gyan.FFmpeg
または
choco install ffmpeg

※ビルドファイルダウンロード時:
bin\
フォルダをシステム PATH に追加

PATH への登録確認: 特に Windows の場合は、コマンドプロンプト上で

ffmpeg
コマンドが認識できるか確認してください。

注意: Python 3.10 以降をお勧めします。

使用方法

基本的には CLI コマンドを使用します。

ベースとなるコマンド

crv "https://www.youtube.com/watch?v=..."
# → crv-out/frames/*.jpg + crv-out/transcript.txt + crv-out/MANIFEST.txt

python -m claude_real_video ... # "crv" コマンドのエイリアスとしても機能

よく使うオプション例

# 1. YouTube / Instagram / TikTok の URL を指定する
crv "https://www.instagram.com/reel/XXXX/"

# 2. ローカルファイルを使用し、英語トランスクリプトを出力(./out)
crv lecture.mp4 -o out --lang en

# 3. フレームのみ抽出(音声トランスクリプションなし)
crv clip.mp4 --no-transcribe

# 4. ログイン制限付き動画:Netscape クッキーファイルを渡す
crv "https://..." --cookies cookies.txt

生成される出力構成

処理が完了すると以下のファイル群が出力されます。これらをドラッグ&ドロップで LLM(Claude, ChatGPT など)に提示すれば利用可能です。

  • frames/*.jpg
    : 重要フレームの画像
  • transcript.txt
    : 音声・字幕に基づくテキスト化データ
  • MANIFEST.txt
    : 動画全体の要約情報

オプション一覧详解挙

詳細な制御を行う場合の設定項目です。

フラグデフォルト値意味と解説
-o, --out
crv-out
出力ディレクトリの名前指定
--scene
0.30
シーン変更の感度。数値が小さいほどフレーム検出数が増える
--fps-floor
1.0
N 秒間に少なくとも 1 フレームを確保する基準(低速動画対応)
--max-frames
150
出力されるフレーム総数の上限(ハードキャップ)
--lang
auto
Whisper の言語指定 (
en
,
zh
,
auto
など)
--dedup-threshold
8
新しいフレームとみなすための画素変化率の閾値 (%)。数値が大きいほどフレーム数は減少する
--dedup-window
4
保持された最後の N フレームと比較対象とする。既に視認済みはカットアウト後に再送されない(
1
にすると連続性のみ判定)
--report
off
破棄されたフレーム
./dropped
に保存し、
report.html
で保持/破棄の判断理由を表示する。チューニング推奨
--no-transcribe
off
音声トランスクリプション処理をスキップする
--keep-audio
off
完全なサウンドトラック (
audio.m4a
) を保存する。聴覚処理可能なモデル(Gemini, GPT-4o)で音楽や調子を「聞く」場合に有効
--cookies
-
ログイン制限ありのソースへのアクセス用 Netscape クッキーファイルパス

Python スクリプトから利用する場合

プログラム内で直接処理したい場合は、以下のように利用できます。

from claude_real_video import process

# YouTube 動画を読み込み、出力ディレクトリを "out" に指定
r = process("https://youtu.be/...", "out", lang="en")

print(f"処理されたフレーム数: {r.frame_count}")
print(f"トランスクリプトのパス: {r.transcript_path}")

仕組みの詳細(内部プロセス)

  1. 取得 (Fetch)
    • URL の場合:
      yt-dlp
      を使用してダウンロード(クッキーオプション付き)。
    • ローカルファイルの場合:コピーのみ。
  2. 抽出 (Extract)
    • ffmpeg
      を利用。シーン変更箇所と密度基準(
      --fps-floor
      )を時系列順に抽出。高速カットと低速スクリーンキャストの双方に対応。
  3. 重複排除 (Dedup)
    • 直近
      --dedup-window
      のフレームスライドウィンドウに対して、実際の画素差(ダウンコンバートした RGB など知覚的ハッシュを使用)を比較。
    • 「A→B→A」のような反復カットでも、モデルが既に視認したシーンは再送しない
    • --report
      を有効化すると、破棄されたフレームと判断差分 (
      %
      ) が記述された
      report.html
      生成が可能。
  4. テキスト (Text)
    • 既存の
      .srt/.vtt
      埋め込み字幕がある場合は優先利用(高速かつ正確)。
    • なければ音声を Whisper でトランスクリプト化。音声なし場合はスキップ。
  5. 音声 (Audio) (オプション)
    • --keep-audio
      を指定すると、オリジナルサウンドトラック (
      audio.m4a
      ) を損失なしで保存。聴覚処理モデルが音楽・効果音を認識可能になる。
  6. マニフェスト (Manifest)
    • 動画の要約情報を
      MANIFEST.txt
      に出力し、LLM が容易に読み込める形式で提供する。

まとめ:多角的な理解を可能にする

このツールにより、モデルは以下の三つのチャネルを通じて動画を理解できます。

  • キーフレーム(画像) → 動画を見ます
  • トランスクリプト(テキスト) → 文章を読めます
  • --keep-audio
    指定(音響データ) → 音楽やトーンを聴きます

注:トランスクリプトは全てのモデルが読めるプレーンテキストです。ツールは字幕焼き付けを行わず、これはオプション機能です。

注意事項とライセンス

  • 著作権・利用制限: 著作権で保護されたコンテンツや、アクセス権限のない資料のダウンロードは禁止されます。
    --cookies
    はご自身の許可された利用環境でのみ使用してください。
  • セキュリティ: リポジトリ内などに認証情報(クレデンシャル)を含めないでください。
  • 上書き動作: 複数回実行する場合、出力ディレクトリは上書きされます。

MIT ライセンス

同じ日のほかのニュース

一覧に戻る →

2026/07/03 6:03

バージニア州、地理的位置データ販売を禁止

## Japanese Translation: 提供されたテキストは、一貫した記事ではなく二進データ、符号化文字、および読み取れない内容のみから構成されているため、要約することができません。事実や日付、製品名を含む標準的な記事とは異なり、この源資料には有意義な分析に必要な理解可能性を欠いています。その解読不可能な性質から、特定の文脈、出来事、または背景情報は導き出すことができません。テキストを処理できないというこの状況のため、有益な洞察や関連する事実を引き出すことは不可能です。源入力を人間が読み取れる言語に変換されるまで、有効な要約を作成することは不可能です。その間もなお、中央テーマ、主要な論点、または具体的な物語を特定しようとするのは無駄であり、データには識別可能なストーリーが存在しないためです。最も重要な点は、この入力が混乱した非構造化形式のため、標準的な読解タスクに根本的に使用できないということです。

2026/07/03 3:41

エキスパンクス(2018)

## Japanese Translation: EXAPUNKS プロジェクトは、プレイヤーが現実的なハッキング活動に取り組み、「EXas」と呼ばれる自律エージェントを管理し、複雑なデジタルタスクを実行できるサンドボックス環境を提供します。従来のシミュレーションとは異なり、このエコシステムではユーザーが現実世界の物体を操作したり、実際のネットワークを侵害したりし、その侵害された状態の中でゲーム世界内で安全に行動することができます。体験の中核には、秘密のヒント、コメント、チュートリアル、EXas をプログラミングしてファイルを破棄させたり、自己複製したり、他のエージェントを停止させたり、痕跡を残さずに姿を消させたりするための詳細を提供する公式 *TRASH WORLD NEWS* ズィンがあります。プレイヤーは銀行、大学、工場、テレビ局、高速道路の標識、ゲームコンソール、政府システム、さらには自身の肉体など幅広い対象を対象とし、その後「ПАСЬЯНС」(パシアンズ)、地域ロックをハッキングした後の「HACK*MATCH」、あるいは TEC Redshift 用のホームブロー開発などの代替ミニゲームにアクセスできます。物理的なデラックス版のズィンセットは、2020 年 4 月に Lulu でのオンデマンド印刷を通じて復活し、7 ドルプラス送料で提供されましたが、両方の号への注文が必要でした。開発者向けには、2018 年 7 月 16 日に詳細とともにリリースされた「Axiom VirtualNetwork+」があり、ホスト、ファイル、レジスタ、ゴール、そしてその API を通じた完全なパズル仕様機能を利用して、ホストスクリプトを記述した JavaScript ベースの「バーチャルネットワーク」を作成することでカスタムパズルの作成が可能になります。2018 年と 2020 年のこれらのリリース以降、専用のコミュニティが栄え、標準的な商業制約を超えたサイバーセキュリティの探求やイノベーションを促進し続けます。

2026/06/28 8:36

現実には驚くほど多くの詳細が存在する (2017)

## Japanese Translation: 私たちが単純なものとして扱っている多くのタスク—地下室の階段を築くことや水を沸かすことなど—is、実行前に深い調査が必要となる重要な細部を隠しています。著者の父は 18 歳でコロンビアから北米へ移住し、実地作業を通じて建築を教えてくれました(フェンスの取り替え、塹壕の掘削、床および小屋の築造など)。著者はフェンスの手すりを取り替える際、床を敷設し、地下室の階段を築く際にこの教訓を実際の経験として学びました。 二つの 2×12 に角度ブラケットを用いて作られた階段は一見単純に見えますが、複数の副次的タスクを含んでいます:切り取り角度を計算またはトラACING し、U ブラケットを取り付けること、および板材を固定することです。木材は乾燥するにつれて歪むため、2x12 を正しい角度に切り取ることは容易ではありません。視覚的な対齐も失敗するため、三角関数を使用するか、円鋸用ガイドを雇用するか、または計算だけよりも木目追跡の方法を好む必要があります。ブラケットを引かれた線上に合わせてからネジを取り付けた場合でも、最初にもうけホールを掘らないとネジが斜めに取り付けられてしまいます;ブラケットを数インチ移動して再 drilling することでより良い結果が得られます。2 インチより長いネジを使用すると、階段の踏み面から突き抜け足に刺さるリスクがあるため、短いネジが不可欠です。 同様に、沸騰は単に「100°C の水」ではありません。真の沸騰の前に小さな気泡が発生します。ガラス鍋はより高い温度を耐え、硫酸で清掃されたガラス容器では水を過加熱することができ、攪拌によって爆発的に飛び散ります。二つの液体の間にわずか一滴の水を挟むだけでも、沸騰せずに約 300°C に加熱でき、一般的な主張と矛盾します。これらのリスクは、充填ベッドとロケット軌道計画を必要とする工業プロセスにも広がっており、見えない力は正確なスロットル制御と使い回し可能なロケットのための慎重な重量管理を要求します。 歴史もこれらの教訓に反響しています:アルコール熱計は 18 世紀にジャン=アンドレ・デュリュがその非線形性を明らかにするまで標準的なものでした。重要な細部が見えないままにされる時、知的な行き詰まりが生じます—例えば、「すべてのデータは「偽造されている」と主張し気候変動を否定する代わりに、見落とした過ちを注意すること—。一度見えなかった細部が出会うと透明化し、進捗はそれを見無視する場合のみ停滞します(例:三角関数 versus トラACING を巡る家族の議論)。究極的に言えば、住宅修理、大規模なエンジニアリング、科学的探究における成功は、予期しない変数を積極的に探し求め、詳細な観察を受け入れ、表面的な仮説への依存を拒むことにかかっています。

Claude-実映像化-すべてのLLMに動画を見せる機能 | そっか~ニュース