Gemini 3.5 Flash のコンピューター利用

2026/06/25 2:21

Gemini 3.5 Flash のコンピューター利用

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Gemini 3.5 Flash は、スタンドアロンのチャットボットから脱却し、プロフェッショナルなワークフロー内での直接的なアプリケーション分析および自動化のためのツールへと進化させ、ネイティブのコンピューター使用機能を導入します。この変化により、開発者は Gemini API と Gemini Enterprise Agent プラットフォームを使用して、デスクトップ、モバイル、ウェブプラットフォームを跨いでシームレスに動作するカスタムエージェントを構築できるようになり、継続的なソフトウェアテストや知識作業といった長期的なタスクに対応できます。モデルは現在、Gemini アプリを分析して機能のカテゴリリストを返すとともに、自身のドキュメントのアクセシビリティに関する問題を監査することができます。これらの自律的環境における安全性を確保するため、Google は「ディフェンス・イン・ディップス」戦略を採用しており、安全なサンドボックス化と厳格なアクセス制御、人間の関与による検証に加え、機密行為に対する明示的な確認や間接的なプロンプト注入の検出時の自動停止を含むオプションのエネタープライズ保護手段を組み合わせています。さらに、ライブ環境で動作するエージェント向けのプロンプト注入リスクを軽減するため、ターゲットにした対抗トレーニングが行われています。組織は直ちに Browserbase によってホストされているデモ環境を通じてこれらの機能を探索するか、利用可能なレファレンス実装とドキュメントを使用して開発を開始できます。

本文

Gemini 3.5 Flash: 「Computer Use」の標準統合と進化

Gemini 3.5 Flash に**「Computer Use」が標準統合**され、エージェント型タスクにおいて最高性能を発揮します。

主な変更点とメリット

  • 機能の統合

    • 以前は独自モデル(Gemini 2.5 Computer Use)限定だった機能が、主力モデルの「Gemini Flash」にネイティブ搭載されました。
    • Gemini が持たずした関数呼び出しや検索ツールに加え、視覚的・操作的なエージェント能力が追加されました。
  • 開発者へのインパクト

    • ブラウザ、モバイル、デスクトップを跨いで**「見る」「考える」「行動する」**ことが可能になりました。
    • **Long-Horizon(長期跨度)**タスクやエンタープライズ自動化の成功率が向上します。
    • 継続的なソフトウェアテストや知的業務支援など、プロフェッショナルなアプリケーション構築が加速します。
  • すぐに利用開始

    • Gemini APIおよびGemini Enterprise Agent Platformを通じて直ちに機能を利用できます。

具体的な使用事例

Gemini 3.5 Flash(Computer Use 搭載)による実用シーンは以下の通りです。

  • アプリの自動検査
    • Gemini アプリをスキャンし、機能をカテゴリ別にリストアップします。
  • 自己監査の実行
    • 自身のドキュメントについて、アクセシビリティ上の課題を独自に検出・報告します。

安全性とリスク対策

ライブ環境での利用に伴うプロンプト注入リスクに対して、以下のような堅牢なセキュリティ体制を整えています。

  • 敵対的トレーニングの適用

    • ターゲティングされた攻撃に対抗できるよう、モデル内で特殊なトレーニングが行われています。
  • 企業の安全保障オプション(2 つ)

    1. 明示的確認義務化: 機密情報の処理や不可逆的なアクションに対して、ユーザーによる手動承認を必須とします。
    2. 自動停止機能: 間接的なプロンプト注入を検知した瞬間にタスクが自動的に中止されます。
  • 防衛の多重化(Defense-in-Depth)推奨アプローチ

    • セキュアなサンドボックス環境との組み合わせ
    • ヒューマンインザループ(人間による検証)
    • 厳格なアクセス制御 これらを併用することで、より高いセキュリティレベルを確保できます。

今日から始めよう

  • 今すぐ試す
    • Browserbase が提供するデモ環境で、Computer Use 機能を無料で体験してください。
  • 開発を開始する
    • Gemini APIおよびGemini Enterprise Agent Platformを利用し、参考実装とドキュメントを確認して構築に取り掛かりましょう。

同じ日のほかのニュース

一覧に戻る →

2026/06/25 2:47

OpenAI、ブロードコムによる初自有チップを発表

## Japanese Translation: 要約: OpenAI は、Nvidia ハードウェアへの依存を減らすという戦略的な動きとして、Broadcom と共同で開発した最初の独自の AI 推論チップ「Jalapeño」を発表しました。このチップの主な優位点は、既存の選択肢を上回る卓越したワットあたりの性能であり、これは OpenAI の大規模言語モデルが直接、チップおよび全体の基盤スタック(アーキテクチャ、カーネル、メモリスистем、ネットワーク、デプロイメントシステムなど)の最適化に参加するという独自のプロセスを通じて実現されています。事前学習タスクは既存のシステムで引き続き行われますが、10 月の公式パートナーシップ発表以降およびさらなるテストを経て、推論ワークロードが Jalapeño へ迅速に移転する見込みです。このチップは推論用に特別に設計されており、より高速で信頼性が高くコスト効率の良い AI エクスペリエンスを実現するとともに運用コストを削減することを可能にします。これは OpenAI の財務の底線を改善する方法として強調されており、エージェント型製品(例:Codex)やリアルタイムモデルを取り扱う専用データセンターなどの目的builtアプリケーションを動かすために適しています。

2026/06/25 7:39

PostgreSQL で十分です

## Japanese Translation: 主要な要点は、GitHub Desktop で特定のクローニングタスクが必要なユーザーは、コントリビューター「cpursley」から提供される専用のスクリプトを使用すべきであるということです。Gist の URL—`https://gist.github.com/cpursley/c8fb81fe8a7e5df038158bdfe0f06dbb.js`—はスクリプトを提供しており、ユーザーは GitHub Desktop 内での使用のために「cpursley/c8fb81fe8a7e5df038158bdfe0f06dbb」をローカルに保存するよう指示されています。内容は、背景や今後のアップデートなしに直ちに実装することに焦点を当てています。

2026/06/24 23:41

RubyLLM:すべての主要 AI プロバイダーに対応する Ruby フレームワーク

## 日本語翻訳: RubyLLM は、OpenAI、xAI、Anthropic、Gemini、Ollama を含むローカルモデルに至るまで主要なすべての AI プロバイダーをサポートする統一された Ruby フレームワークです。多様な API とレスポンス形式を単一のインターフェースに統合することで開発を簡素化するのがその主たる価値であり、このことでチームはチャットボット、AI エージェント、RAG システム、コンテンツ生成器、および様々な AI ワークフローを構築できます。インストールは簡単です:Gemfile に RubyLLM を追加し、`config/initializers/ruby_llm.rb` で API キーを設定し、必要であれば generator コマンドで Rails と統合し、`localhost:3000/chats` でローカルチャット UI を起動できます。開発者は RAG システムやコンテンツ生成器などの複雑なアプリケーションをわずか 2 分で構築でき、Ruby エコシステム内でこの機能を拡張しています。JPG(画像)、MP4(ビデオ)、WAV(音声)、PDF(文書)、RB(コード)を含む広範なファイル解析をサポートしており、`RubyLLM.paint` を介した画像生成、`RubyLLM.embed` を介した埋め込み生成、`RubyLLM.transcribe` を介した音声書き起こしが可能となります。また、`RubyLLM.moderate` を用いたコンテンツモデレーション機能も含まれており、テキストの安全性を確認できます。ユーザーは `.with_tool` を使用して AI エージェントが特定の指示に基づいて実行するカスタム Ruby クラスツールを定義でき、`RubyLLM::Agent` を用いて特定の指示、モデル、ツールの関連付けを持つエージェントを作成できます。さらに、このフレームワークは `RubyLLM::Schema` で定義されたスキーマによる構造化 JSON 出力をサポートし、`.ask` メソッドに渡されるブロックを通じてストリーミングレスポンスを提供します。このアプローチにより、高度なモデルを使用して複雑なタスクを実行する洗練されたエージェントの迅速なデプロイが可能となり、ネイティブ Ruby 環境内で堅牢な人工知能ソリューションの作成が著しく加速されます。