ソフトウェア

Metaが日本語音声を入力するだけで文字起こしなどが可能なAI「SeamlessM4T」の改良版「SeamlessM4T v2」をリリース


Metaが2023年8月に公開したAI「SeamlessM4T」は、音声を入力するだけで文字起こしや別言語への翻訳、別言語への吹き替えが可能です。さらにMetaは2023年11月30日に、SeamlessM4Tの改良版となる「SeamlessM4T v2」を発表しました。この「SeamlessM4T V2」では、SeamlessM4Tのパフォーマンスを向上させているだけでなく、感情やスタイルを維持しながら、別の言語へ吹き替えを行うことも可能です。

Introducing a suite of AI language translation models that preserve expression and improve streaming
https://ai.meta.com/blog/seamless-communication/


Seamless Communication Translation Demo
https://seamless.metademolab.com/expressive


Metaによると、今回発表された「SeamlessM4T v2」は、話者の感情や表現のスタイルを維持しつつ、言語から別言語への翻訳を行うモデル「SeamlessExpressive」と、話者が話している最中に翻訳を行うことで、別言語話者とのリアルタイムな会話ができるほどに遅延を低減するモデル「SeamlessStreaming」の2種類のモデルから構成されているとのこと。MetaはSeamlessM4T v2について「表現力豊かなクロスリンガルコミュニケーションをリアルタイムで実現できる初のシステム」と評しています。

Metaが公開しているSeamlessM4T v2のデモ映像が以下。英語で楽しげに話す女性の声がほぼ同じトーンのスペイン語で吹き替えられています。


早口のフランス語で急かす男性の声も、同様に英語に吹き替えることに成功。


悲しげなトーンで話す女性の英語も、スペイン語に変換されています。


ささやくような英語でもフランス語に変換することが可能。


SeamlessM4T v2には実際に機能を試すことができるデモも公開されています。デモを試すためには、まず以下のリンク先にアクセスします。

Seamless Communication Translation Demo
https://seamless.metademolab.com/expressive

ページ上段または最下段の「Try the demo」をクリック。


デモの使用に関する注意書きが表示されるので、利用規約をよく読み、同意のチェックを入れます。


自身が話す言語や、翻訳先の言語を選択し、右下の「NEXT」をクリックします。なお、記事作成時点では、英語・スペイン語・フランス語・ドイツ語のみに対応しています。


カメラやマイクへのアクセスが求められたら「許可する」をクリック。


カメラ映像が表示されたら、「Record」ボタンを押してからマイクに向かって処理したい文章を読み上げます。


処理可能な読み上げ時間は最大10秒。10秒経過後は自動的に処理が行われます。処理が終わると、表現力を高めて吹き替えた音声と表現力を高める前の吹き替え音声、元の音声の3種が提示されるので、それぞれを比較することが可能です。


なお、SeamlessM4T v2はローカルにインストールして動作させることもできます。詳しいインストール手順は以下のリンク先で確認できます。

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
https://github.com/facebookresearch/seamless_communication


また、2023年8月22日にリリースされたMetaのAI「SeamlessM4T」のデモを動作させて文字起こしや翻訳を行った様子は以下の記事から確認できます。

Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた - GIGAZINE

Googleが音声から「テキストと音声の両方」に翻訳できる大規模言語モデル「AudioPaLM」を発表 - GIGAZINE

Googleがムービーの自動吹替&リップシンクAIを開発中、声色を変えずに吹替可能で高性能すぎて悪用注意とのこと - GIGAZINE

AIを駆使した音声翻訳システムをMetaが公開、テキストデータの収集が困難なマイナー言語にも対応 - GIGAZINE

無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE

文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE

in レビュー,   ソフトウェア,   動画, Posted by log1r_ut

You can read the machine translated English article here.