ジェミニ・オムニ

2026/05/20 2:46

ジェミニ・オムニ

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

元の要約は高品質です。粒度細かいリスト項目を流暢でプロフェッショナルな段落に統合し、正確性を維持することに成功しています。正当性の点では変更は厳密には必要ありませんが、クリエイティブ機能とセキュリティ機能の間での移行をよりスムーズにするという議論も可能でしょう。ただし、現在の流れは論理的です。

要約:

Google の最新イノベーションである Gemini Omni は、高度な推論能力と強力な編集機能を Google Flow というクリエイター向け専用のスタジオ内に統合することで、デジタル制作を根本的に変革します。先ほどのツールとは異なり、このシステムはユーザーが簡素なプロンプトだけでカメラアングルやシーンの環境を操作し、手動介入なしに複雑な視覚効果——例えば無見のオブジェクトや同期された照明など——を生成する能力を備えています。重要なのは、生成されたすべてのコンテンツには SynthID と C2PA Content Credentials という不可知なデジタルウォーターマークが搭載されており、Chrome および Search を通じて厳格な真正性の検証が可能になっていることです。この透明性は、AI 生成メディアに関する業界の懸念に対処し、リリース前にコンテンツの出所(プロベニエンス)を確認します。セキュリティは、パブリックリッチの前に専門家が脆弱性を独立してテストする厳格な外部レッドチーム化によって保証されています。評価方法は自動化チェックと人間による監督を組み合わせて進化するにつれ、業界は高忠実度生成アートと破られにくいセキュリティ追跡を兼ね備えた新しい標準へと移行しており、クリエイターに前例のない制御を提供しつつ、消費者を誤情報から保護します。

本文

Gemini Omni は、Gemini の推論能力と創造能力が相融化するプラットフォームです。世界認識、マルチモーダル機能、および編集能力において飛躍的な向上をもたらします。

プロンプト例:

  • 手の指先の穴から見た地面が、超ズームにより鋭い画質で拡大されるような映像にしてください。
  • に映る指が動物のぬいぐるみに触れた瞬間、その動物が発する音声が再生されますように。
  • アパートの明かりが音楽のリズムに同步して点灯しますように。 -バイオリニストを画像提示された環境内に移動させますように。
  • バイオリンを不可視化しますように。
  • カメラアングルを、バイオリニストの後方からの肩越しビューに変更しますように。 -宇宙船を<対象>に置き換えますように。 -チェーンreaction のような軌道上を高速で転がる大理石の映像を、連続的な滑らかなショットで生成してください。
  • タンパク質の折りたたみ過程を粘土細工(claymation)で解説する動画を作成。すべては粘土製であり、手は登場せず、ストップモーション手法を採用し、正確な表現を心がけてください。
  • 脳内の海馬がどのように機能するかをスケオモルフィズム風のストップモーション映像で解説する動画を生成。魅力的なナレーションを用い、セイウチの描写は行わないこと。音声のカットは終了時に行わないこと。テキスト表示は付与しないこと。
  • アルファベットの文字それぞれに対応した珍しいアイテムがテーブルに置かれた状態で表示される動画を作成。「C」にはカピバラ、「D」にはディスコグローブ、「L」にはラヴァランプなど。全 26 文字について、それぞれ異なるアイテムを提示し、下部左隅に黒いマーカーで書かれたような紙切れ状のローサーサー(lower thirds)に該当する文字を表示。一度に一つのみを画面に表示し、約 9 フレームずつ(24FPS で動作)、最後は「THE END」と記した紙切れを表示します。全体的には落ち着いた滑らかな音楽を伴います。
  • 「did, you, know, that, this, model, can, do, pretty, good, text!?」という言葉を一つずつ画面に表示し、各単語ごとに異なるアニメーションスタイルで表現。リズムに合わせた完璧なペース配分であり、サッズリール(showreel)のようなダイナミックさを持たせます。

プロンプト作成について

  • リアルで論理的かつ創造的な出力を得るためには、当社の「プロンプトガイド」をご利用ください。

モデルのトレーニング・開発における評価

  • モデルのトレーニング中に実施され、終了後にも継続的に自動化された評価と人間による評価が行われ、その進捗と性能を監視するものです。

人間によるレッドチーム(Human red teaming)

  • モデル開発チームとは独立した専門チームによって実施され、安全ポリシーや目指すべき成果(desiderata)に従って、意図的に弱点を発見し、モデルが安全性の方針および期待される結果を遵守するかを検証します。

自動化されたレッドチーム(Automated red teaming)

  • システム全体にわたって Gemini Omni Flash の安全性・セキュリティ面を動的に評価し、人間によるレッドチームや静的評価を補完します。

倫理と安全性に関する審査(Ethics and safety reviews)

  • モデルのリリース前の段階で行われる審査です。

Gemini アプリ、Google Flow、YouTube で作成または編集されたコンテンツには、我々が開発した目立たないデジタルウォーターマーク「SynthID」と C2PA コンテンツ認証情報が組み込まれています。

  • Gemini アプリ(近日では Chrome ブラウザと検索エンジンでも対応予定)を利用して、簡単にコンテンツの検証が可能になります。
  • 私たちがどのようにしてコンテンツの透明性と検証ツールを強化し、インターネット上のあらゆるコンテンツがどのように作成・編集されたかを理解いただけるよう展開しているかについては、当社のブログ記事をぜひご覧ください。

Gemini

  • 創造性と生産性を飛躍的に高めます

Google Flow

  • クリエイターと共同で開発され、クリエイターのために設計された AI による創作スタジオ

YouTube Shorts

  • YouTube で発見・視聴・創作を行うための短尺コンテンツプラットフォーム

同じ日のほかのニュース

一覧に戻る →

2026/05/20 2:43

Gemini 3.5 フラッシュ

## Japanese Translation: Google は、最先端の知能と自律的なアクションを組み合わせて複雑なワークフローに対応する高速度 AI モデル Gemini 3.5 Flash を発表した。本モデルは今日から Google アプリ、Google Search AI Mode、Android Studio や Gemini API のようなエンタープライズプラットフォームを通じて地球規模で数十億人のユーザーに利用可能であり、処理速度では他の最先端モデルの最大 4 倍を誇り、コーディングおよびエージェントベンチマークにおいてはフラッグシップ級の能力と拮抗する。本モデルは特定タスクにおいて優れ、Terminal-Bench 2.1 で 76.2%、MCP Atlas で 83.6% のスコアを獲得し、CharXiv Reasoning では 84.2% のマルチモーダル理解力を示して業界をリードしている。更新された Antigravity ハネスを使用することで、研究論文の迅速な統合やコードベース全体の変形を 6 時間で実現するとともに、より豊かなインタラクティブな Web インターフェースとグラフィックスの生成が可能になる。Shopify、Macquarie Bank、Salesforce、Ramp、Xero、Databricks のような実世界パートナーはすでに、この技術を利用して商取引予測、顧客オンボーディング、税務フォーム処理、データ診断といった重要なプロセスの自動化を進めている。さらに、Google は今日から信頼されるテストユーザー向けに、本モデルを活用した新しいパーソナル AI エージェント「Gemini Spark」を展開しており、間もなくより広範な利用が可能になるという。Frontier Safety フレームワークを遵守し、強化されたサイバー保護機能や内部の推論ロジックを明らかにする高度な説明可能性ツールを搭載している。また、本モデルの内部バージョン"Pro"が現在使用されており、来月には公開予定で、極致の速度と堅牢な信頼性の両立という新たな業界ベンチマークを確立することになる。

2026/05/20 3:34

グーグルが検索ボックスを変更しました。

## Japanese Translation: Google は本日、AI モードのグローバルなデフォルトモデルとして Gemini 3.5 Flash をリリースし、検索体験を根本的に変革しています。この動きは、25 年以上にわたり最も重要な Google 検索インターフェースのリデザインであり、テキスト、画像、ファイル、動画、Chrome タブを動的に受け入れるように再設計された AI 搭載の検索ボックスを導入します。インターフェースの大規模な刷新に加えて、このアップグレードは予約サービスを利用するなどの自律的なツールや、Agentic コーディングを通じて独自のカスタム生成型 UI を構築するための強力な「エージェンティック」機能を含みます。これらのエージェントは、金融やスポーツ、マンション探しやスニーカーコラボレーションなど、ニッチな関心分野に至るまでリアルタイムデータストリームを監視するバックグラウンドプロセスとして 24 時間年中無休で動作し、実質的に常時稼働するアシスタントとして機能します。 今年の夏以降、これら先進的な機能(独自ダッシュボード、トラッカー、「ミニアプリ」など)は Google AI Pro & Ultra サブスクリプションのユーザー向けに初リリースされ、その後世界中の約 200 カ国、98 ヵ国語に対応し拡大します。いずれすべてのユーザーへ無料で提供されます。ユーザーは Gmail や Google Photos など個人データを安全に接続することで、個別最適化されたソリューションを可能にし、Google が汎用的な検索結果を超えて、日常業務や複雑なタスクに対するエージェント駆動型のパーソナライズ体験において、ユーザーデータと直接相互作用することを可能にすることに大きく転換します。

2026/05/20 0:53

思い浮かぶほぼ全てのオペレーティングシステムを展示した仮想美術館を作成しました。

## Japanese Translation: Virtual OS Museum は、Linux ベースのプロジェクトであり、独自のエミュレータとスナップショット機能によって一般的なインストール問題を回避し、20 年以上にわたるコンピューティング史へのアクセスを提供します。QEMU、VirtualBox、または UTM を通じて実行され、エミュレータに依存しないランチャーをサポートし、フルオフラインエディション(すべて事前にダウンロード済み)と初回実行時にイメージをダウンロードする軽量バージョンの 2 つの形態に対応します。両方のエディションとも自動更新および手動更新をサポートします。コレクションには、1948 年のマンチェスターベビーから現代の PC およびモバイル・埋め込みデバイスまでが含まれ、メインフレーム、ミニコンピュータ、ワークステーション、ホームコンピュータ、クラシック Mac OS(X 10.5 PPC まで)、初期の Unix の祖先、Xerox Star に代表されるデスクトップメタファー型 GUI、Plan 9 や Smalltalk などのおさらいな研究システム、および歴史的使用シナリオを再現するための追加アプリケーション、開発ツール、ゲームを網羅しています。各ゲスト VM の項目には、HP-UX CDE、Mac OS Finder、Amiga UNIX OpenLook といった時代特有の環境を反映させる具体的なソフトウェア構成が含まれています。Patreon、Ko-fi、Discord/Fluxer、GitLab、およびソーシャルメディアによって支援されている同博物館は、コンピューティングの進化を保存し、特殊な機器や複雑なパッチングプロセスなしに、開発者や歴史家がレガシー GUI や研究システムを安全に研究することを可能にします。

ジェミニ・オムニ | そっか~ニュース