GeminiがComputer Use機能を標準搭載 — AIが「画面を見て操作する」時代が本格化

6月24日、Googleが「Introducing computer use in Gemini 3.5 Flash」と題した記事を公開した。Gemini 3.5 FlashにComputer Use機能が組み込みツールとして統合され、ブラウザ・モバイル・デスクトップ環境を横断したエージェント自動化が可能になった。

AIが「画面を見て操作する」機能が主力モデルの標準装備に

Computer Use（コンピュータ操作）とは、AIエージェントが画面を「見て」内容を理解し、マウスやキーボード操作を通じて実際にアプリケーションを動かす機能だ。Anthropicが2024年10月にClaude向けにこの機能を公開して以来、エージェント型AIの実用化における重要な技術として広く注目を集めてきた。その後、OpenAIもOperatorでこの領域に参入しており、Computer Useは生成AI各社の競争軸のひとつとなっている。

今回の発表で最も重要な点は、Googleがこれまでプレビュー版として独立した形で提供していたComputer Use機能を、Gemini 3.5 Flashの組み込みツールとして正式統合したことだ。Function CallingやSearch・Mapsグラウンディングといった既存の標準ツールと並んで、追加設定なしに利用できるようになった。

Gemini 3.5 Flashは速度とコスト効率を重視して設計されたモデルだ。そのモデルにComputer Useを統合することで、継続的なソフトウェアテストや複数の業務アプリケーションをまたいだ反復作業の自動化など、長時間・大規模なエンタープライズ用途での実用が想定されている。

プロンプトインジェクション対策を正面から設計

ライブ環境でエージェントが動作する際、外部サイトや文書に埋め込まれた悪意ある指示をAIが誤って実行してしまう「プロンプトインジェクション」のリスクは避けられない課題だ。Googleはこの点を正面から取り上げ、以下の対策を実装している。

ターゲット型敵対学習（targeted adversarial training）: Gemini 3.5 Flash自体をプロンプトインジェクションへの耐性を持つよう訓練
センシティブ操作の明示的確認: 取り消し不能な操作の前にユーザー確認を要求するオプション
自動タスク停止: 間接的なプロンプトインジェクションを検知した場合に自動でタスクを中断するオプション

後者2つはエンタープライズ向けのオプション機能として提供される。Googleはこれらの機能単体に頼るのではなく、セキュアなサンドボックス、ヒューマン・イン・ザ・ループ（人間が操作を確認するステップ）、厳格なアクセス制御と組み合わせる「多層防御（defense-in-depth）」アプローチを推奨している。具体的な実装ガイドラインはベストプラクティスドキュメントにまとめられている。

使い始める方法

Computer Use in Gemini 3.5 Flashは、現時点で以下の経路から利用できる。

Gemini API: 開発者向け
Gemini Enterprise Agent Platform: エンタープライズ向け

まずデモで試したい場合は、Browserbaseがホストするデモ環境が公開されている。コードから入りたい場合は、GitHubのリファレンス実装が参照先になる。

Computer Useがモデルの付加機能ではなく、主力モデルの標準ツールとして組み込まれたことで、これまで導入を検討しながら踏み出せていなかった開発者やエンタープライズチームにとって、実務投入のハードルは実質的に下がった。

詳細はIntroducing computer use in Gemini 3.5 Flashを参照していただきたい。