4月10日、Googleは180カ国以上で最新の開発者向けツール、Gemini 1.5 Proをリリースした。
このアップグレードには、ネイティブ音声理解、システム指示、JSONモード、そしてファイル操作を容易にする新しいFile APIが含まれている。Googleによると、これらの機能は開発者がより精密にモデルの出力を制御できるよう設計されている。
音声理解機能の強化
特に注目すべきは、Gemini 1.5 Proに組み込まれた音声(スピーチ)理解機能である。この機能により、開発者は音声データを直接モデルに入力し、その解釈を得ることが可能になった。また、画像と音声を組み合わせたビデオデータの解析も可能になり、Google AI Studioでの使用が前提となっている。今後、API経由でのサポートも計画されているという
開発者向け新機能
このアップデートには、開発者向けの多数の改善が含まれている。
システム指示
**[システム指示](https://ai.google.dev/docs/system_instructions)**機能では、開発者がモデルに特定の役割、フォーマット、目標、およびルールを定義することによって、モデルの生成するレスポンスの方向性を指示できる。これにより、特定のアプリケーションやタスクに対するモデルの応答をより具体的に調整することが可能となる。
以下は、Gemini API 用の Python SDK を使用してシステム命令を設定する簡単な例である。
# system_instructionパラメータにより、システムに猫になるよう指示している
model=genai.GenerativeModel(
model_name="gemini-1.5-pro-latest",
system_instruction="You are a cat. Your name is Neko.")
JSONモード
[JSONモード](https://ai.google.dev/docs/gemini_api_overview?hl=ja#jsonでは、モデルがテキストや画像からの情報を解析してJSONオブジェクトとして出力することが可能だ。このモードは、特に構造化データの抽出や、プログラミングによる後処理が必要な場合に有用で、開発者は出力データをより容易に扱うことができるようになる。
この出力機能を使用するには、Gemini APIを呼び出す際にresponse_mime_type 構成オプションを application/json に設定し、リクエストの本文に JSON 形式の仕様を含めるようにする。次のコード例は、プロンプトに対する JSON レスポンスをリクエストする方法を示している。
curl https://generativelanguage.googleapis.com/v1/models/gemini-1.5-pro-latest:generateContent?key=$API_KEY \
-H 'Content-Type: application/json' \
-X POST \
-d '{ "contents":[{
"parts":[{"text": "List 5 popular cookie recipes using this JSON schema: \{ \"type\": \"object\", \"properties\": \{ \"recipe_name\": \{ \"type\": \"string\" \},\}\}"}] }],
"generationConfig": {
"response_mime_type": "application/json",
} }'
新しいテキスト埋め込みモデル
Googleはまた、検索パフォーマンスを大幅に向上させた新しいテキスト埋め込みモデルをリリースした。このモデルはtext-embedding-004と呼ばれており、比較可能な次元を持つ既存のモデルを凌駕し、特にMTEBベンチマークでの性能向上が顕著である。
この進歩は、テキストベースのデータをより深く、精確に解析する能力を開発者に提供し、情報検索、文章の自動分類、関連性の高いコンテンツ推薦など、幅広いアプリケーションにおいてより良い結果をもたらすという。
その他の新機能
**新しいFile API**は、ファイルとメディアの取り扱いをより直接的かつ効率的に行うことを可能にする。このAPIを利用することで、開発者は画像、ビデオ、音声ファイルなど、様々な形式のファイルを簡単にGemini 1.5 Proモデルへと統合し、処理することができます。これにより、メディアコンテンツの解析や、ファイルベースのデータソースから情報を抽出するアプリケーションの開発が容易になる。
また、 関数呼び出し機能 も改善され、モデルの出力方法を指定して信頼性を向上させることができるようになった。
詳細情報については、Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and Moreを参照されたい。