6月3日、Jason Koeblerが「Google Is Quietly Buying Code From Play Store Developers to Train AI」と題した記事を公開した。
404 Mediaの調査により、GoogleがAndroidアプリ開発者に対してAI訓練用のコード購入を秘密裏に提案していることが明らかになった。この動きは、大手テック企業がWeb上の公開データだけでは高品質なAIを作れなくなっている現実を浮き彫りにしている。
Googleは数百万ダウンロードを記録するAndroidアプリの開発者に「機密コンテンツオファー・パイロット」への参加を呼びかけている。メールでは「アプリを動かすコードや、アーカイブされたプロジェクトを共有することで報酬を得られる」と提案している。興味深いことに、このメールではAIという言葉は一切言及されていないが、リンク先のページでは明確に「AIプロダクトを改善するためのパートナーシップ」について説明されている。
コード生成AI市場での劣勢が背景
コード生成AI市場は2024年現在、年間100億ドル規模に急成長しており、企業の開発効率を大きく左右する重要な技術領域となっている。しかし、Googleはこの分野で明確に出遅れている。
MicrosoftのGitHub Copilotは2021年の登場以来、全世界で130万人以上の有料ユーザーを獲得し、開発者コミュニティで圧倒的な支持を得ている。また、Anthropic Claudeの最新版であるClaude 3.5 Sonnetは、HumanEvalベンチマークでコーディング能力においてGPT-4を上回る92%のスコアを記録している。
一方、GoogleのGemini(旧Bard)やVertex AI Codeyといったコーディングツールは、開発者コミュニティでの採用率が低く、Stack Overflowの2024年開発者調査では使用率10%未満という結果になっている。Web上でスクレイピング可能なコードだけでは、実用的なレベルのコーディングAIを構築できていないことが今回の戦略転換の要因と考えられる。
「機密パイロット」の具体的内容と条件
開発者に送られたメールでは、以下の条件が提示されている:
- 追加収益機会:アプリのコードとアーカイブプロジェクトの共有による報酬(具体的な金額は非開示)
- 早期導入者としての地位:Googleと開発者コミュニティの今後の連携方針を形成する機会
- 知的財産権の保持:非独占的ライセンスで、開発者が100%のIPを保持
- 製品開発への貢献:複雑なロジックの理解からコーディング評価・ベンチマークまで幅広い用途
404 Mediaによると、この「機密」とされるプログラムに関する情報を共有することでGoogleからの報復を恐れた複数の開発者が匿名での情報提供を行っている。
AI訓練データ枯渇問題の深刻化
AI業界全体が「データの壁」に直面している。研究機関Epochの2024年3月の報告書によると、Web上の高品質な言語データは2026年までに枯渇すると予測されており、各社は新たなデータ調達戦略の構築を迫られている。
Googleは2024年2月、Redditとの間でAI訓練データアクセスのために年間6000万ドルの契約を締結したが、404 Mediaは「結果は期待を下回った」と報じている。これは、ソーシャルメディアの雑多なコンテンツと、実際のプロダクションで使用される品質の高いコードとでは、AI訓練における価値が大きく異なることを示している。
OpenAIやAnthropic も同様の課題に直面しており、高品質で専門的なデータの確保が次世代AI開発の鍵となっている。これまでのように無料で利用できるWeb上のデータに依存する時代は終わりを迎えつつある。
開発者コミュニティへの影響と懸念
今回の取り組みは開発者にとって新たな収益機会を提供する一方で、競合優位性の流出という懸念も生まれている。特に、独自のアルゴリズムやビジネスロジックがGoogleのAIに学習されることで、将来的に類似のソリューションが自動生成される可能性がある。
また、Electronic Frontier Foundationなどのプライバシー団体は、開発者のコードが意図しない形で利用される可能性について警鐘を鳴らしている。非独占的ライセンスとはいえ、一度提供されたコードがどのように使用されるかの透明性が不足している点が課題として指摘されている。
業界動向と今後の展望
この取り組みは、AI開発における新たなデータエコノミーの始まりを象徴している。MicrosoftやMeta、Amazonといった他の大手テック企業も、同様のデータ購入戦略を検討している可能性が高い。
特に注目されるのは、今後のGoogle I/Oなどの開発者イベントで、このプログラムがどのように公式化されるかである。開発者にとっては自身のコードが新たな収益源になる機会である一方、業界全体としてはAI開発コストの大幅な上昇を意味している。
詳細はGoogle Is Quietly Buying Code From Play Store Developers to Train AIを参照していただきたい。