3月26日、Googleは新たなAIモデル「Gemini 2.5」を発表した。
同社によれば、Gemini 2.5は高度な推論能力を備えた“思考モデル”であり、幅広いベンチマークで最先端の性能を示しているという。現時点では2.5 Proの実験版を公開しており、AI分野の主要な指標の一つであるLMArenaにおいて大差をつけて1位を獲得しているとのことだ。
Gemini 2.5シリーズは思考プロセスを重視しており、 応答前に内部で推論を行う ことで性能と正確性の向上を図っている。
AIにおける「推論能力」とは、単純な分類や予測を超え、情報を分析し、論理的な結論を導き、文脈やニュアンスを加味して意思決定する力を指す。こうした取り組みは過去より強化学習やchain-of-thought promptingといった手法を通じて探求されてきたが、Gemini 2.0 Flash Thinkingの登場を経て、今回の2.5では大幅な性能向上が実現されたという。
Gemini 2.5 Pro Experimentalは複雑なタスク向けの最先端モデルであり、LMArenaの評価でも高い支持を得ている。コード生成や数学・科学分野のベンチマークでも強力な推論能力とスタイル品質を示していると報告されている。Google AI Studioのほか、Geminiアプリの「Gemini Advanced」ユーザー向けに提供されており、今後はVertex AIへの対応も予定されている。
大規模な数理・科学系ベンチマークにおいては、追加の投票手法(多数決など)なしでも最先端の成績を残しているとされ、専門家が知識と推論力の限界を問う目的で構築したHumanity’s Last Examでも顕著なスコアを記録しているという。
コード性能に関しては、Gemini 2.0から大きく進歩しており、特にビジュアル要素を含むWebアプリ開発やエージェント的なコード生成、コード変換・編集などで優位性を示している。SWE-Bench Verifiedなどのエージェントコード評価でも高スコアを獲得しており、単一のプロンプトから実行可能なプログラムを生成する例が紹介されている。
また、Gemini 2.5はマルチモーダル対応と長大なコンテキストウィンドウを活用することで、テキストや音声、画像、動画、さらにはコードリポジトリのような膨大な情報源を扱える点も特長とされている。今回の2.5 Proは100万トークンのコンテキストウィンドウを搭載し、今後200万トークンへの拡張が予定されているという。
企業や開発者はGoogle AI StudioやGemini Advancedなどで2.5 Proを試すことが可能で、間もなくVertex AIでも利用できるようになる見通しだ。Google DeepMindは引き続きユーザーのフィードバックを募集し、Geminiシリーズの性能向上を目指すとしている。
詳細はGemini 2.5: Our most intelligent AI modelを参照していただきたい。
snow rider