2023年08月22日 12時30分ソフトウェア

Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開

Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿しました。

Multimodal generative AI search | Google Cloud Blog
https://cloud.google.com/blog/products/ai-machine-learning/multimodal-generative-ai-search?hl=en

LVMのデモは「https://ai-demos.dev/」で公開されています。このサイトでは複数のデモがまとめて公開されているので、「MERCARI TEXT-TO-IMAGE」をクリックしてLVMのデモを表示させます。このデモは名前にMERCARIと付いている通り、メルカリの商品データを利用して作成されているとのこと。

自分でテキストを入力することもできますが、まずはデモが提案している「Ralph Lauren polo shirt」をクリック。検索欄に文字が自動で入力され、即座に検索結果が出現しました。ここまでであれば通常の検索と特に変わりはないのですが、Googleの投稿によるとこの検索は「タイトル」「説明」「タグ」などを使用せず、画像をAIが分析することのみで成り立っているとのこと。

そのため、「黒と白のビーズのついた手作りのアクセサリー」という検索性の低そうな文章でも適切な商品を検索できます。

「踊っている人の絵が付いたカップ」など、商品の絵についても分析可能。

「Googleロゴ色のコップ」だと青・赤・黄・緑の色で構成されたコップがヒットします。さすがに誰も「Googleロゴ色」という文章を登録するとは思えないので、これがLVMの実力な模様。

文字の認識もできるようで、「『It's my birthday』と書かれたシャツ」と検索するとその通りのシャツがヒットしました。

深層学習モデルでは、テキスト・画像・音声などの「意味のマップ」である埋め込み空間を作成できます。例えば画像の場合、下図のようにそれぞれの画像が「人間」「食べ物」「おもちゃ」などの成分に分解され、それらの成分で成り立っている埋め込み空間上に配置されます。

似た成分を持つ画像は埋め込み空間上で近い位置に配置されます。この仕組みを利用すると画像から画像を検索するシステムを構築可能です。

また、深層学習モデルではテキストと画像のペアを利用してトレーニングすることもできます。Googleは「画像を埋め込み空間に配置するモデル」「テキストを埋め込み空間に配置するモデル」「両者の空間の関係を学習するモデル」の3つのモデルを利用してトレーニングを行ったとのこと。「大規模言語モデルに視覚を与えるようなもの」と述べられています。

こうして、画像とテキストを共有埋め込み空間に配置することができました。

この空間を利用すると、テキストから画像を検索したり、逆に画像からテキストを検索したりすることが可能です。Google検索でも同様の考え方が使われているとのこと。

さらに、GoogleはNomic AIと協力して視覚化デモを構築しました。モデルが画像を理解する方法の一端を垣間見ることができます。

Googleの解説ブログでは、LVMの応用例として、インターネットオークションに出品する時に商品の画像をアップロードするだけでタイトルや説明が自動入力されたり、「燃えている機械」「ドアを開けようとしている人」「水浸し」などのテキストを使って多数のセキュリティカメラを効率的に管理したりという例が記載されています。そのほか、自動運転などで機械学習を行う際のデータの整理を効率的に行うことも可能です。

テキスト・画像を同時に検索できるマルチモーダル検索の使用を考えている人向けに、Googleのサービスの紹介も行われていました。ウェブサイトやPDFファイルの検索には「Gen App Builder の Enterprise Search」を使うのが良く、大量の画像とムービーに対してセマンティック検索を行ったり類似性検索を行ったりしたい場合は「Vertex AI Vision Warehouse」、製品などのデータが表形式にまとまっている場合は「Enterprise Searchへのマルチモーダル埋め込み」、マルチモーダル検索だけでなくレコメンドなどへの再利用まで考えており、機械学習エンジニアなどの専門家がいる場合は「Vertex AI Matching Engine」を利用するのが良いとのことです。