12月12日、The Keyword | Googleで「Gemini 2.0 のご紹介: エージェント時代の新しい AI モデル」と題した記事が公開された。この記事では、Googleが発表した新しいAIモデル「Gemini 2.0」について詳しく紹介されている。
Gemini 2.0の概要
Gemini 2.0は、Google DeepMindが開発した最新のAIモデルである。Gemini 1.0および1.5から大きな進化を遂げたモデルであり、特に「エージェント時代」に対応した新機能が注目されている。以下の点が特徴である。
- マルチモーダル対応の進化: 画像、音声、テキスト、コードを統合的に理解するだけでなく、これらを出力する機能が追加された。
- 新たなエージェント機能: 連続的な思考、複雑なタスクの実行、外部ツールの呼び出しが可能。
- 大規模なハードウェア基盤: 100% Trillium TPUによるトレーニングと推論が行われている。
Gemini 2.0 Flash
Gemini 2.0 Flashは、Gemini 2.0シリーズの中でも高速な応答性を持つモデルである。以下の特徴がある。
- 2倍のスピード: 1.5 Proを上回る性能を発揮し、2倍の速度で動作する。
- マルチモーダル出力の実現: 画像、音声の生成が可能になり、テキストと画像を組み合わせた出力も可能である。
- ツール呼び出し機能: Google Searchやサードパーティのユーザー定義関数も呼び出すことができる。
Gemini 2.0 Flashは、Google AI StudioおよびVertex AIからAPIを通して開発者に提供されている。
エージェント機能の実験プロジェクト
Gemini 2.0は、AIエージェントの可能性を探るいくつかのプロジェクトで活用されている。これらのプロジェクトは、エージェントの新たな可能性を切り開くものである。
Project Astra
概要: ユーザーの音声や画像を理解し、Google検索やGoogleマップを活用するAIアシスタントの研究プロジェクト。
- 多言語対応: 複数の言語や異なる方言を認識可能。
- 新たなツールの使用: GoogleレンズやGoogleマップとの連携が可能。
- メモリの改善: セッション中の情報を10分間保持し、以前の会話の内容も考慮に入れる。
Astraは、スマートフォンやスマートグラスでの使用が想定されており、プロトタイプのテストが進められている。
Project Mariner
概要: ブラウザの画面情報を理解し、ユーザーの代わりにタスクを実行するエージェントの研究プロジェクト。
- Webページの認識: ブラウザ上のテキスト、コード、画像、フォームを認識し、操作が可能。
- タスクの実行: Chrome拡張機能を通じて、フォーム入力やスクロール、クリックが可能。
- 安全性の向上: サードパーティによる不正な操作を防ぐため、ユーザーの最終確認を求める仕組みが導入されている。
Marinerは現在、信頼されたテスターによるテストが進行中であり、今後のブラウザ自動化の可能性を大きく広げるものとされている。
Jules
概要: 開発者向けに設計されたAIエージェントで、GitHubワークフローと連携する。
- コード開発の支援: Issueの解決、開発計画の立案、コードの実行が可能。
- GitHubとの統合: GitHubのリポジトリに統合され、開発フローの効率化を支援する。
Julesは、コーディングエージェントの可能性を模索する実験プロジェクトの一環であり、開発者の生産性を高めるための支援が期待されている。
エージェントの応用事例
Gemini 2.0は、ゲーム分野や物理的な世界でも活用が検討されている。
- ゲームエージェント: ゲームのプレイを支援するAIエージェントの開発が行われている。例えば、「Clash of Clans」や「Hay Day」などの戦略ゲームでのナビゲーション支援が可能になる。
- ロボティクスの応用: 物理的な環境でのタスクを支援するために、Gemini 2.0の空間認識能力が活用されている。
これらの分野での研究はまだ初期段階だが、将来的には大きなインパクトを与える可能性がある。
今後の展開
Gemini 2.0は、今後Google製品に段階的に統合されていく予定である。AIアシスタント「Gemini」では、Flashバージョンの2.0がすでに利用可能であり、来年にはさらに多くの機能が展開される予定である。
AIが製品やサービスに統合されるにつれ、エージェント技術の活用は急速に拡大すると予測されている。Gemini 2.0の技術は、AIアシスタントだけでなく、ゲーム、ロボティクス、Webブラウザの自動化など、さまざまな領域での活用が期待されている。
詳細はIntroducing Gemini 2.0: our new AI model for the agentic eraを参照していただきたい。