8月27日、Googleが「New AI-powered live translation and language learning tools in Google Translate」と題した記事を公開した。この記事では、Geminiモデルを用いたGoogle翻訳アプリの新機能——リアルタイムのライブ会話翻訳と言語学習の個別練習機能——について詳しく紹介されている。以下に、その内容を紹介する。

概要
Googleは毎月およそ1兆語が利用される翻訳需要に対し、Geminiの推論力とマルチモーダル能力を活用して、会話の同時通訳と学習練習の2機能を強化した。対象はAndroidとiOSのTranslateアプリで、順次提供を開始するという構成である。
ライブ会話のリアルタイム翻訳
Translateアプリ上で音声と画面表示の両方により、相互に話しながら即時に翻訳される体験を提供する。対応言語は70以上(アラビア語、フランス語、ヒンディー語、韓国語、スペイン語、タミル語などを含む)である。操作は「Live translate」をタップし、言語を選択して話しかけるだけだ。双方の発話は音声出力と文字起こしで並行表示され、会話のポーズ、アクセント、イントネーションを自動検出して自然な対話を実現する。
音声分離に強い音声・音響認識モデルを用いるため、空港やカフェのような騒がしい環境でも実用的な品質を狙っている。新しいライブ翻訳の提供開始地域は米国、インド、メキシコからである。
カスタマイズされた言語学習機能
会話力の向上、とりわけ「聞く・話す」の習得を支援するため、学習目標と熟達度に合わせた対話的な練習セッションを生成する機能を提供する。ユーザーはアプリの「practice」からレベルと目的を設定すれば、即時にシナリオが生成される。
各シナリオでは、
- 会話を聴いて聞き取れた語をタップしてリスニングを鍛える、
- あるいは話して発話練習を行い、必要に応じてヒントを受け取る、
といったインタラクションが可能だ。学習科学の知見に基づき、日々の進捗を記録し、自信を持ってコミュニケーションできる技能の形成を支援する。
このβ体験は今週よりAndroid/iOSのTranslateアプリで段階的に展開され、まずは英語話者のスペイン語・フランス語学習、およびスペイン語・フランス語・ポルトガル語話者の英語学習を対象に提供される。
翻訳を支えるAIの進歩
Googleは言語処理の研究と機械翻訳の多言語化・高品質化・高速化を継続しており、Geminiの導入により、従来の言語間テキスト変換を超えて、マルチモーダル翻訳やTTS(テキスト読み上げ)まで含めた体験の質向上を図っている。今回の2機能は、その研究開発の延長線上にあるアップデートである。
詳細はNew AI-powered live translation and language learning tools in Google Translateを参照していただきたい。