**Show HN:** レモンスライス – 音声エージェントをリアルタイム動画へアップグレード ---

Japanese Translation:

概要:
LemonSlice は、リアルタイムの対話や事前録画コンテンツに利用できる、高品質で低レイテンシーな音声・映像エージェントを提供します。プラットフォームは、最先端の双方向音声→音声（S2S）モデル―現在は Hume のモデルと今後登場予定の Personaplex ―および Alibaba から評価中の高速テキスト→音声（TTS）スタックに依存しています。Qwen によって駆動される LLM が対話生成を行い、int4 精度で単一 GPU 上で約 20 fps の実行速度を持つ 20 B パラメータの拡散（DiT）モデル がリアルタイムでアバターアニメーションを駆動します。

システムは LiveKit を基盤として構築され、任意の音声プロバイダーをプラグインできます。現在は OpenAI、Gemini、Grok をサポートし、まもなく Personaplex も追加予定です。Video Agents は最大 3 本の同時通話 をホストでき、約 10 秒の GPU 接続後に対話を開始 し、リアルタイムストリーミング用に無制限のエージェントをサポートします。これは、ダウンロード用に最大1分の動画しか作成できず、ライブ通話をサポートしていない Creative Studio とは対照的です。

ユーザーは既にウェブアプリで「action text prompts」を使用してアバター操作を制御しています。将来のリリースでは API がこれらのコントロールを公開します。チームは音声品質（高解像度出力）と唇同期の質向上に注力し、コミュニティからの高速化、より良い同期、広範な行動制御への要望に対応しています。プラットフォームは情報提供アバターや看護師トリアージ、SDR リード資格確認などのロールプレイングシナリオを想定しつつ、マーケティング・カスタマーサポート・教育用途でも低レイテンシーと高音質がメリットとなる場面で活用できます。

主要技術メモ: メモリ帯域幅の制限により、性能は H100 などのハイエンド GPU 上で最も発揮されます。拡散モデルの効率は最近の DiT 研究と int4 量子化によるものです。

この改訂版概要はキー・ポイントリストのすべての主要点を取り入れ、曖昧な表現を排除し、読みやすく明確なメッセージを維持しています。

映画制作から学んだ一つのことは、プロとアマチュアを分けるポイントが音声自体にあるという点です。 NVIDIA の Personaplex や同様に話しながら聞くこともできる他の音声モデルを導入することについて考えたことはありますか？現在の会話はまだ STT‑LLM‑TTS で成り立っており、これは多くの音声エージェントが抱える問題だと思います（今まで自然な対話フローを実現できているのは Sesame と NVIDIA のみのようです）。それでも自分たちの拡散モデルを訓練したことは素晴らしい仕事です。最近の拡散に関する文献を読んだとき、U‑Net アーキテクチャ以来の進歩に圧倒されました。

EDIT: 主要な焦点は映像生成であり音声ではないという点を確認しました。こちらが重要です。私たちの主な優先事項は遅延削減でした。そのため、ElevenLabs の代わりに Hume の双方向 S2S 音声モデルを統合する作業に没頭していましたが、ElevenLabs が先月 STT‑LLM‑TTS パイプラインを高速化したことを知り、そのままにしました。測定結果はここで確認できます（非常に興味深いです）： https://docs.google.com/presentation/d/18kq2JKAsSahJ6yn5IJ9g… ただし、あなたの指摘どおり、双方向 S2S 音声には速度以外にも多くのメリットがあります。 LiveKit の統合を使えば、LemonSlice を好きな音声プロバイダーと組み合わせることができます。現在 LiveKit が提供している S2S プロバイダーは OpenAI、Gemini、Grok であり、Personaplex も間もなく追加される見込みです。これは非常に印象的です！ A/V と応答時間を同期させた最高品質の会話エージェントの一つだと確信しています。テキスト処理は Qwen/Alibaba を使用していますか？ありがとうございます！現在、LLM には Qwen を採用しています。また、まだ試したことがない高速 TTS モデルをリリースしており、とても速いとのことです。わぁ、このチームは止まることなく進化していますね！この小さなクルーが次々とヒット作品を生み出すのは驚異的です。

購入先がオープンポリマーケットにあるかどうか疑問です。価格設定は混乱を招きます：Video Agents – 無制限エージェント、最大 3 件同時通話；Creative Studio – 1 分長の動画、最大 3 件同時生成。これはつまり合計で 1 分の動画通話しかできないという意味ですか？それとも月間で 3 通話を無制限に続けられるのでしょうか？異なるアバターを使用できますか、それとも同じアバターを 3 回使うだけでしょうか？アバターを録画して動画化し、ソーシャルメディアに投稿することは可能ですか？混乱を招いて申し訳ありません。Video Agents と Creative Studio はまったく別の商品です。 Video Agents = インタラクティブ映像；Creative Studio = 動画制作とダウンロードです。リアルタイム動画通話に興味があるなら、Video Agents の価格設定と機能セットを確認してください。

Max Headroom を hn リンクに追加することもできます。フリーズフレームや重複、静止映像を挟むことでリアルタイム化できるかもしれません。おっと！「You’re about to speak with an AI.」というプログレスバーを処理遅延と勘違いしました。UI をもっと一般的なインターフェース（例： “the call is ringing”）に変更して混乱を避けるべきかもしれません。初期はループする MP4 映像（“welcome message”）ですが、ボットへメッセージが送信され次第 GPU と接続し、通話がインタラクティブになります。GPU への接続には約10秒かかります。理解できます。初期化は約10秒です。ただし、その後はリアルタイムになるはずです。正直言って、これはよくある混乱だと思いますので指摘していただきありがとうございます。

このサイトに飽き足りません！たった半時間でこれほどのことができるとは驚愕です。会議も進められました！私の頭は爆発します！ AI とチャットするためにマイクを使う初体験と同じ感覚です。幸い、私たちと同様に好きな人が見つかって嬉しいです！

ちなみに、改善すべき最大の課題は応答速度です。もっと高速化できると思います。新しい AI アシスタントを立ち上げて、生き生きとしたものにしたいので LemonSlice を試し、その魅力に惹かれました！私たちのアシスタントが同僚のように、Loom スタイルの動画を作成できるようにしたいと考えています。以下は私が作った作品です – https://drive.google.com/file/d/1nIpEvNkuXA0jeZVjHC8OjuJlT-3… 何より LemonSlice チームには大きな拍手を送りたいです。これからの進化に期待しています。

トークン消費はどれくらいでしたか？悪質な顧客が AI 課金を大量に発生させて笑い合うことに不安があります。競合他社も過剰課金をスパンサーする可能性がありますね。すごくクールです！共有いただきありがとうございます。 AI コーディングエージェントをより AI 従業員化したユースケースは興味深いです。この方法でユーザーが製品により親しみやすくなるかどうかも見どころですね。

アバターの動き、表情、感情反応を細かく調整できるコントロールを公開する予定ですか？はい、そうします！ウェブアプリ内には「action text prompt」セクションがあり、キャラクター全体の行動（例： “a fox talking with lots of arm motions”）を制御できます。 API でもこの機能を公開し、キャラクターの動きをダイナミックに制御できるようにします（例：“now wave your hand”）。テキストコントロールは特に感情表現に優れています。たとえば、“a person talking. they are angry.” と入力すると、エージェントが怒った表情を示します。また、背景の動き（海の波、滝、車の走行など）も制御可能です。手の動きをより細かくコントロールできるモデルを積極的に訓練しています。

低解像度・低フレームレートです。リップシンクが悪いのか、低 FPS が原因で見劣りするのか分かりません。音声は低品質に聞こえ、悪いマイクで録音したようですし、アバターと合っているとは感じられません。フィードバックありがとうございます。役立ちます。確かに、一部のアバターは他よりリップシンクが劣ります。ズームレベルによる違いもあります。現在、オリジナル音声を返すこと（エンコード／デコード音声ではなく）を 100% 確認しています。高解像度での作業に取り組んでいます。

「スタッキングトリック」を同時に使用した際の洞察は興味深いです。どこでアプローチが限界に達し、他社がそれをコピーしても優位性があるかどうか、教えてください。 20B パラメータ拡散モデルと 20fps を単一 GPU でリアルタイムストリーミングできるのは客観的に印象的です。デモを見るだけでも「わぁ」と言いたくなるのですが、ここではそれが役立つとは限りません。明らかに大きな技術成果であり、他の人々もアプローチの限界や汎用性に興味を持つでしょう。

良い質問です！ソフトウェアは急速に民主化されるため、他者が同様の手法をすぐに実装すると思います。明確に言うと、当社の「速度アップグレード」は最近の DiT 論文から取り入れたものです。この解像度と速度で単一 GPU 上で全てを動かすことは、新規性が高い（私が見た限り）と思います。人々はそれをコピーするだけで、我々はできる限り速く進める必要があります。リアルタイム動画拡散モデルにおいて今、少し革命が起きていると考えています。過去 6 ヶ月で多くの優れた論文が発表されています。1 年以内には多くの DiT モデルがリアルタイム化されると思います。メモリ帯域幅制約に興味があります。20B パラメータと 20fps は、INT4 を使用しない限り単一 GPU の帯域を飽和させるはずです。H100 が必要でしょうか？興味深い点として、LLM パイプラインは速度に大きく最適化されており（コストと直結）、リアルタイム DiT ではそうとは限らないという事実があります。そのため、我々や他者がより高速で優れたものを作る余地はまだ多いです。

hn プレイグラウンドで無料月間を取得する方法はありますか？私にはこの技術を活用できるウェブサイトが数多くあります！

Hey HN! ここに参加している創業者の一人です。現在、情報アバターとロールプレイング（トレーニング）を最も一般的なユースケースとして見ています。ロールプレイングは予想外で、例えば看護師が AI 患者とのトリアージ練習や SDR が異なるクライアントに対するリード資格付けの練習を行うケースです。これは数年ぶりにハッカーニュース上で最も印象的なことだと感じています！ぜひ投資してください！

OpenAI のリアルタイム音声を LiveKit と組み合わせて使用しており、LiveKit が統合されているため実現できるはずです。ビデオはまだ LiveKit で試したことがなく、プラグインの設定方法も不明です。正解です！ LiveKit 統合を使えば LemonSlice を任意の音声プロバイダー上にアバター層として追加できます。

API 使用時には任意の音声エージェント（または LLM）を呼び出せます。 API はエージェントが言うべき内容を受け取り、エージェントが話す映像をストリーミングで返します。完全ホスティング版では現在 ElevenLabs と提携しています。

同意です。昨年の結果にとても興奮しましたが、今は大変悪い状態です。数か月後には再び同じことになると期待しています。ありがとう！昨年はほぼ動作しなかっただけで、それ以外はほとんどありません。今年は実際に良好で、運よく新技術が質の高いものになりました。 r0fl のコメントがアストロターフィングだという証拠は見当たりません。時には単に熱意を示すだけです。サイト品質への懸念はありがたいです。コミュニティが保護することに関心を持つのは、サイトが存続できる主な理由です。ただし、HN の規則に反している投稿ですので、https://news.ycombinator.com/newsguidelines.html をご確認ください。「アストロターフィング、シリング、ボット、ブリガーディング、外国エージェント等についての示唆はしないでください」とあります。もし濫用が心配なら hn@ycombinator.com へメールしてください。データを確認します。公平な懸念ですが、 r0fl を知りません。私たちはアストロターフィングではありません。オープンにポジティブコメントをいただくのは驚きです。過去の経験とは異なると感じます。

Show HN: レモンスライス – 音声エージェントをリアルタイム動画へアップグレード ---

Japanese Translation:

同じ日のほかのニュース