Contact Sheet Prompting

2025/12/08 19:39

Contact Sheet Prompting

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

改訂版概要

Nano Banana Pro(NBP)は、1回の実行で6〜9枚の一貫したキーフレーム画像を生成できるコンタクトシートプロンプトをサポートするようになりました。これによりキャラクター、衣装、照明が保持されます。この機能は TechHalla の単一プロンプト制御手法を拡張したもので、NBP は以前は9枚の画像を個別に生成していましたが、現在はすべてのフレームをまとめて処理します。Firat Bilal は X 上でこのテクニックを適用し、NBP の推論能力をより活かしました。

著者は、複数角度とポーズからなる1人モデルのファッション撮影にこの手法を適用しました。Node Banana ワークフロー(作業中)で実行したプロセスは次の通りです。

  1. 高級ファッションスタジオ設定でモデル写真を撮影:Fuji Velvia フィルム風、55 mm単焦点レンズ、ハードフラッシュ、過剰露出+粒子・過飽和;アスペクト比 3:2。
  2. 照明とスタイリングはそのままに衣装を変更。
  3. すべてのファッションディテールを一覧化し、フレーム間で一貫性を保つよう NB‑P に指示する適応型コンタクトシートプロンプトを使用。プロンプトでは単一の 2×3 コンタクトシート(6 フレーム)とキーフレーム分解も要求します。
  4. 画像を抽出し、Kling 2.6 の Inference‑to‑Video (I2V) を実行(webUI で最初+最後のフレーム;API は Kling 2.5 が必要)、easypeasyease でイーズアニメーションを適用してモーションを滑らかにし、幻覚を隠します。

必須ショットリストは以下です:クローズアップポートレート、高角度3/4ビュー、低角度斜め全身、横からの圧縮シーン、予想外の高さからの親密なクローズ、非直感的角度での極端なディテール。すべてのフレームは完璧な衣装忠実性、一貫した環境/照明、自然な被写界深度変化、フォトリアルテクスチャ、同一アスペクト比、同じフィルムスタイルを維持しなければならない。

最終出力は 2×3 コンタクトシート画像(2 k または 4 k 解像度)。これらのキーフレームがさらなるビデオ適応の基盤となります。推奨ワークフローは Chrome デスクトップで最高に機能します。

本文

コンタクトシートプロンプティング – クイックスタートガイド


概要

コンタクトシートプロンプティング では、Nano Banana Pro(NBP)を使って、1回のパスで全6〜9フレームからなる完全なコンタクトシートを生成できます。すべてのショットで同一キャラクターとシーンを維持しつつ、各キーフレームごとにカメラ設定を制御するために NB P の推論能力を活用します。


元技術

  • 出典:TechHalla のオリジナル投稿(プロンプトはそのままコピーしないでください)。
  • 主なアイデア:1回のパスで一貫したキャラクターと物語を持つすべてのフレームを出力する。
  • NBP の利点:現在、NBP が唯一このレベルの一括一貫性を実現できる。

ファッション撮影への適応

  1. 目的:モデルを複数角度・ポーズで紹介しつつ、衣装、ライティング、フィルムスタイルを一定に保つ。
  2. ツール
    • Node Banana(ノードエディタ) – 提供されたワークフローをノードグラフへドラッグ。
    • Kling 2.6 – 画像→動画変換(I2V)。
    • easypeasyease – イーズカーブ適用とクリップ結合。
  3. ワークフロー
    1. モデルの参照写真を撮影。
    2. プロンプトで衣装変更を指示。
    3. 適応したコンタクトシートプロンプトでカメラ位置を設定。
    4. 生成されたコンタクトシートから画像を抽出。
    5. Kling 2.6 で I2V を実行。
    6. easypeasyease でイーズカーブを適用しアニメーション化。

プロンプト例

初期モデルプロンプト

Show me a high‑fashion photoshoot image of the model wearing an oversized jacket and glasses. The shot is a full‑body, low‑angle view on Fuji Velvia film (55 mm prime lens, hard flash). The subject looks slightly bored with eyebrows raised, one hand tapping the side of the glasses. Studio background: blue. Outfit: dark grey baggy cotton pants. Overexposed, grainy, oversaturated; skin shiny, harsh white reflections on glasses.
Aspect ratio: 3:2

コンタクトシートプロンプト

  1. 入力画像を解析し、ファッションに不可欠な詳細(衣装、アクセサリー、ヘア、メイクアップ、ライティングなど)をリスト化。

  2. フレーム間ですべてのディテールを変更せず保持。

  3. 出力:

    • 1 枚の 2×3 コンタクトシート画像(6 フレーム)。
    • 各フレームのキーフレーム分解表。
  4. フレーム要件(すべての 6 フレーム)

    • 空間的にダイナミックで非線形、視覚的に異なる。
    • 参照ショットと同じアスペクト比・フィルムスタイル。
    • 焦点距離に応じて自然に被写界深度を変化。
  5. 撮影リスト

    1. High‑Fashion Beauty Portrait – クローズアップの編集ヘッドショット、ややオフセット角度。
    2. High‑Angle Three‑Quarter Frame – 上方から斜めにオフセンターでの視点。
    3. Low‑Angle Oblique Full‑Body Frame – 地面近くの低い角度、長すぎるシルエット。
    4. Side‑On Compression Frame (Long Lens) – サイドプロファイルで空間圧縮を強調。
    5. Intimate Close Portrait From Unexpected Height – 予想外の高さから撮った頭/胴体クローズショット。
    6. Extreme Detail Frame From a Non‑Intuitive Angle – 衣装・アクセサリーの超近距離ディテールを異なる角度で。

継続性と技術的注意点

  • 衣装忠実性:すべてのフレームで同一の服、素材、色、アクセサリーを表示。
  • ライティングの一貫性:被写体に中心化したハードフラッシュ、エッジへ向かって減衰。過度露出+フィルム風粒子効果。
  • 被写界深度:自然に調整(遠距離は深い、クローズ/ディテールは浅い)。
  • アスペクト比:すべてのキーフレームが参照画像と同じ比率。

出力形式

  1. コンタクトシート画像 – 2×3 グリッド。詳細抽出用に推奨解像度は 2K または 4K。
  2. キーフレーム分解表 – 各フレームのカメラ位置と被写体動作を簡潔に記述。

ヒント&ワークフロー拡張

  • プロンプトをクリエイティブニーズに合わせてカスタマイズ。コンタクトシートプロンプトは強力な 6‑ショットテンプレートとして機能します。
  • 抽出:NBP が自動で個別フレームを取り出せますが、手動抽出も時間短縮に有効です。
  • 動画生成:I2V のベストは Kling 2.6。API 利用時は Kling 2.5 に切り替え。
  • アニメーションスムージング:被写体の動きを最小限かつ意図的に保ち、easypeasyease でイーズカーブを適用してアーティファクトを隠す。

一貫性のあるハイファッションコンタクトシートを作成し、滑らかなビデオへと自然に移行させてください!

同じ日のほかのニュース

一覧に戻る →

2025/12/12 3:04

GPT-5.2

## Japanese Translation: **OpenAIのGPT‑5.2リリース** OpenAIは、プロフェッショナルな知識作業を対象とした3つのバリアント(Instant、Thinking、Pro)を含む新しいモデルシリーズGPT‑5.2を公開しています。 **パフォーマンスハイライト** *スピード & コスト*: GPT‑5.2 Thinkingは、歴史的指標に基づくと、人間専門家のコストの1%未満で、出力速度が11倍以上速いです。 *精度*: GDPval(44職種)では、Thinkingが新しい最先端70.9 %を達成し、業界プロフェッショナルを70.9 %のタスクで上回ります。また、SWE‑Bench Proで55.6 %、SWE‑Bench Verifiedで80 %を達成し、幻覚(hallucinations)を約30 %削減します。 *長文コンテキスト & ビジョン*: モデルはOpenAI MRCRv2(≈100 %精度、256kトークン)で新たな最先端を設定し、チャート推論とソフトウェアインターフェース理解のエラー率を半減します。 *ツール使用*: GPT‑5.2 ThinkingはTau2‑bench Telecomで98.7 %を達成し、遅延感受性ワークフローにおいてGPT‑5.1を上回ります。 *科学ベンチマーク*: ProはGPQA Diamondで93.2 %、FrontierMath(Tier 1–3)で40.3 %成功率、ARC‑AGI‑1で>90 %を達成し、ThinkingはARC‑AGI‑2で54.2 %を記録します。 **ユーザーへの影響** 平均的なChatGPT Enterpriseユーザーは毎日40–60分の節約を報告しており、重度利用者は週に10時間以上削減しています。この効率向上により、特定タスクの人件費が99 %超で削減される可能性があります。 **インプリケーション** GPT‑5.2の広範な機能(スプレッドシート、プレゼンテーション、コード、画像認識、長文コンテキスト推論、ツール使用、複雑な多段階プロジェクト)は、金融・ソフトウェア工学・科学研究などのプロフェッショナルドメインでAI採用を加速させる位置づけです。

2025/12/12 5:46

Denial of service and source code exposure in React Server Components

## Japanese Translation: React は Server Components 機能における 2 つの重大なセキュリティ脆弱性(CVE‑2025‑55184(Denial of Service、CVSS 7.5)と CVE‑2025‑55183(Source Code Exposure、CVSS 5.3))に対するパッチをリリースしました。いずれの脆弱性も Remote Code Execution を可能にしないため、既存の React2Shell パッチは有効なままです。 バグは `react-server-dom-webpack`、`react-server-dom-parcel`、および `react-server-dom-turbopack` のそれぞれ 19.0.0/1、19.1.0‑1.2、および 19.2.0‑1 バージョンに影響します。修正リリースは 19.0.2、19.1.3、そして 19.2.2 です;これらのいずれかを直ちにインストールしてください。 対象となる React フレームワーク/バンドラーには Next.js、react‑router、waku、@parcel/rsc、@vite/rsc-plugin、および rwsdk が含まれます。アプリケーションが Server Components またはそれをサポートするバンドラー/プラグインを使用していない場合、影響はありません。 DoS 脆弱性は、特定の HTTP リクエストを逆直列化すると無限ループに陥り、ソースコード脆弱性は任意の Server Function の文字列表現(stringified body)を返し、ハードコーディングされた秘密情報が漏洩する恐れがあります。 React Native を monorepo で使用している場合、影響を受ける `react-server-dom-*` パッケージだけを更新すれば十分です;core の `react/react-dom` バージョンは変更不要です。 ホスティングプロバイダーは一時的な緩和策を適用していますが、サーバー停止や秘密情報の偶発的漏洩を防ぐために開発者は依存関係を直ちに更新する必要があります。 --- *上記の要約をそのまま保持したい場合は、元のまとめを繰り返してください。

2025/12/12 3:17

Rivian Unveils Custom Silicon, R2 Lidar Roadmap, and Universal Hands Free

## Japanese Translation: RivianはエンドツーエンドのAIスタックを拡張することで自動運転車市場でリーダーになるという野心を固めています。 - **ハードウェア&ソフトウェア**:同社は、5 nmマルチチッププロセッサ「RAP1」を発表しました。このプロセッサは1600 sparse INT8 TOPSを提供し、新しいGen 3 Autonomy Computerで秒間50億ピクセルの処理が可能です。また、自社開発のAIコンパイラとプラットフォームソフトウェアも構築しています。 - **認知モジュール**:ACM 3は2026年後半にR2で初登場し、最初はLiDARを装備せず、後にカメラとレーダーとともに追加されます。 - **ソフトウェア展開**:Universal Hands‑FreeはGen 2 R1T/R1S車両向けにリリースされ、米国・カナダの3.5 百万マイル以上の道路で明確に描画されたレーンラインをカバーし、現在のオーナーの支援走行領域を拡大します。 - **Autonomy+**:階層化された機能セットが2026年初頭に登場予定で、1回限り2,500ドルまたは月額49.99ドルで提供されます。 - **データ基盤**:RivianはUnified Intelligenceを中心とした組織再編を行っており、このデータフレームワークはテレメトリ、クラウドモデル、サービスシステム、および顧客機能を結びつけ、予知保全・診断・AIツールの実現を可能にします。 - **音声アシスタント**:次世代Rivian Assistantは2026年初頭にGen 1/2車両で登場し、R2ではより強力なインフォテインメントコンピュータを使用して完全オフラインで動作させることでレイテンシを低減します。 - **サービスワークフロー**:テレメトリと車両履歴を分析するAI駆動の専門家システムはすでにサービスワークフローに組み込まれており、技術者が問題箇所を迅速に特定できるようになっています。類似ツールはモバイルアプリにも計画されており、自助診断をサポートします。 これらの動きは、最先端のコンピューティングハードウェア、データ中心のプラットフォーム、拡張された支援走行機能、およびAI強化保守を車両ラインナップ全体に統合することで、Rivianの競争力を深めます。