8月9日、Google Cloudは、音声をテキストに変換する技術「Speech-to-Text V2 API」のリリースと、最新の大規模音声モデル「Chirp」の提供を発表した。これにより、企業は音声データを効果的に活用し、新たなビジネスチャンスを探ることができるようになると述べている。
Speech-to-Text V2 APIのポイント:
- リージョンごとの展開サポート: 企業はデータの居住地やコンプライアンス要件を満たすために、Google Cloud Platformリージョン内で同一のトランスクリプションモデルを展開できる。
- Recognizersの導入: ユーザー定義の設定を使用して、同じ設定を繰り返し定義する手間を省く。認証と認可の柔軟性が向上する。
- 音声のフォーマット自動検出: 音声の設定を自動的に検出し、手動での設定入力の手間を軽減する。
- 価格改定: リアルタイムおよびバッチのトランスクリプションのコストが引き下げられ、大規模なワークロードを持つ企業向けには割引オプションも提供される。
新音声モデル「Chirp」の詳細:
Google Cloudは、「Chirp」という最新の大規模音声モデルを発表した。Chirpは、2Bのパラメータを持ち、300以上の言語に対応した最先端の音声モデルだ。高い精度と広範な言語カバレッジを提供し、企業向けに特別に調整されている。
Chirpは、Speech-to-Text V2 APIを通じて一般提供され、簡潔なエンタープライズグレードのAPIを介して、事前学習済みの大規模モデルの力を活用できるようになった。
これらの新展開により、Google Cloudは企業が音声データをより効果的に活用し、ビジネスプロセスを向上させる手助けをすることを目指している。
詳しい内容は「Google Cloud Speech-to-Text V2 API」を参照してください。