GoogleのGemini新機能「Multimodal Live API」で音声・映像・テキストをリアルタイムに扱う時代が到来!スターターキット公開で誰でも実装可能に|りんか
BRANK

今回はGoogleが発表した次世代大規模言語モデル「Gemini」に搭載された新機能、Multimodal Live APIについてご紹介したいと思います。最近Githubでスターターキットが公開され、「え?これgit cloneで誰でも使えるの!?」とAI好きとしては衝撃を受けています。 誰でもGeminiのマルチモーダルAPIでアプリつくれちゃうのやばいな これgit cloneしたらこれ立ち上げられて、デフォルトで音声、カメラ、画面共有、検索などのツール使用もできる。しかもソースコードいじり放題だから好きなように改造できる。いろん

note.com
Related Topics: API Economy