AI 時代におけるマウスポインタの再構想

Japanese Translation:

Google は、Gemini モデルによって駆動される実験的な AI 搭載マウスポインタを近日中に新規搭載ラップトップ向けに「Magic Pointer」として登場させる予定です。このプロトタイプは、文脈管理をユーザーからコンピュータへ移行するため、カーソル周囲の視覚情報と意味論的情報を捉え、生の画素データを場所、日付、オブジェクトなどの実行可能なエンティティに変換します。4 つの原則（フローを維持する、提示し説明する、「これ」と「あれ」を受け入れる、画素を構造化データに変換する）を指針とし、ユーザーは画像、表、レシピなどの画面要素に指差し、「方向性を検索する」「チャートを作成する」など自然なリクエストを発話できます。今日では、ユーザーは Google AI Studio および Chrome で実験的なポインタを試すことができ、ウェブサイトセクションを比較、画像を編集、地図上の場所を検索、レシピの材料分量を確認するなど、プロンプトを記述せずに各種タスクを実行できます。長期的なビジョンは、長大で文章中心のプロンプトに代わり、直感的なジェスチャーと発話を可能とし、コーディングスキルや高度なプロンプトエンジニアリングを必要とせず、ツール横断でのシームレスな AI コラボレーションを実現することです。

私たちは、AI との協業をもっとシームレスで直感的なものにするために開発を進めています。マウスポインタは、ウェブサイトやドキュメント、ワークフローなどあらゆるコンピュータ画面の隅にあり続けてきたものでした。技術がどのように進化しても、そのポインタ自体は 50 年以上にわたりほとんど進化しませんでした。私たちは新しい AI 機能の研究を通じて、ポインタが「何を指しているか」だけでなく、「なぜそれがユーザーにとって重要なのか」を理解するよう支援する可能性を探ってきました。

私たちの目標は、よくある不満に対処することです—that is to say, 従来の AI ツールは独立したウィンドウとして動作するため、ユーザーは自分のワークフローをそこに引きずりこむ必要がありました。私たちはその逆を目指しています：即座にユーザーが利用するあらゆるツールに立ち寄り、ワークフローを中断することなく支援してくれる直感的な AI です。例えば、ビルの画像を指して「案内を教えて」のように依頼すれば、AI システムが文脈を理解しているため、何も追加で入力する必要はありません。

本日では、将来のユーザーインターフェースを導く基本的な考え方をまとめるとともに、Gemini を搭載した実験的なポインタ機能による実証デモも公開します。例えば、Google AI Studio で画像を編集したり、地図上で場所を検索したりする際、指して話せば十分です。本ビデオでは、AI 搭載ポインタの実験環境を紹介しており、シーケンスは短縮しています。

私たちの対話の原則

文脈や意図を伝えるという負担をユーザーからコンピューターへと移行させ、テキスト-heavy なプロンプトに代わってシンプルでより直感的な操作を実現するため、4 つの原則を確立しました。以下に、当社のアプローチとこれらの原則を図解した例を示します。

フローを維持する：AI 機能はすべてのアプリケーション内で動作すべきであり、ユーザーをアプリ間を行き来させる「AI 経由ルート」に追いやらないこと。プロトタイプ段階の AI 搭載ポインタは、ユーザーが作業しているあらゆる場所で利用可能です。例えば、PDF の特定箇所を指して箇条書きの要約を求めたり、統計表の上にカーソルを合わせた上で円グラフ形式への変換を依頼したり、レシピの一部をハイライトして材料分量を倍にするよう指示したりすることができます。
示すことで語る（Show and Tell）：現在の AI モデルは正確な指示を必要とします。良い応答を得るには、ユーザーが詳細なプロンプトを入力する必要がありました。AI 搭載ポインタはこのプロセスを簡素化し、ポインタ周辺の視覚的・意味的情脈を円滑に取得することで、コンピューターがユーザーにとって重要な要素を「見て」「理解する」ことを可能にします。実験システムでは、ただ指すだけで、AI はユーザーが援助を必要としている特定の単語、段落、画像の一部、あるいはコードブロックを正確に把握します。
「これ」と「あれ」の力を引き出す：日常における人々の相互対話では、長く詳細な段落で語ることは稀です。「これを直して」「あれをここへ移動させる」「これはどういう意味？」といったように、「これ」「あれ」といった指示を出し、物理的なジェスチャーや共有された文脈によって理解の隙間を埋めることが一般的です。文脈、ポインタ操作、話し言葉を組み合わせることを理解する AI システムなら、ユーザーは複雑なリクエストでも自然な省略形で表現でき、調整の手順が入ったプロンプト入力也不必となります。
ピクセルを実行可能なエンティティに変換する：数十年にわたりコンピューターは、マウスカーソルがどこを指しているかを追跡していただけですが、AI は今や「何を指しているか」も理解できるようになりました。これにより、単なるピクセルは場所や日付、オブジェクトなど構造化されたエンティティへと変換され、ユーザーが瞬時に操作可能なものとなります。手書きノートの画像がインタラクティブなタスクリストに変化し、旅行動画で一時停止したフレームからその魅力的なレストランの予約リンクへアクセス可能になります。

人間の行動に適応する技術を開発するというアプローチ——つまり、ユーザーを技術を適応させるのではなく——は、AI との協業がまさに直感的で流動的かつシームレスなものとなる未来を実現させます。私たちが毎日使用している製品の中に、こうした人間中心的な概念が組み込まれていることを心待ちにしています。

これらの研究成果を製品に適用

私たちは現在、これら 4 つの原則を取り入れて、Chrome でのポインタ操作や新しく提供する Googlebook ラップトップ体験を見直しを進めています。今日から起きますので、複雑なプロンプトを入力する代わりに、Chrome で Gemini にウェブページのどの部分が関心があるかを指して尋ねることができます。例えば、ページ上のいくつかの商品を選択して比較を依頼したり、リビングルームで新しいソファの配置イメージを表示したい場所を指したりすることが可能です。同様に、まもなく Googlebook 向けに「Magic Pointer」も導入し、ユーザーが指先で Gemini の力を活用しながらより直感的な体験を得られるようサポートします。他にも多くの有望な応用可能性があるため、未来の概念については Google Labs の Disco など当社プラットフォーム全体で引き続き検証を進めていきます。

Google AI Studio で試してみましょう。

AI 時代におけるマウスポインタの再構想

Japanese Translation:

同じ日のほかのニュース