5月22日、ModelRiftが「OpenSCAD LLM Benchmark: Building the Pantheon」と題した記事を公開した。6つの主要AIコーディングツールにパンテオン神殿の3D再現を競わせたベンチマークテストで、Googleのシステムが圧倒的な差をつけて勝利したという興味深い結果が報告されている。
このテストが注目される理由は明確だ。現在のAI開発競争において、コーディング能力は各社が最も力を入れる分野の一つとなっている。しかし従来のベンチマークは「Hello World」レベルの簡単すぎるタスクか、複雑すぎて実用性に欠けるものが多かった。パンテオン神殿の3D再現は、実用的でありながら十分に挑戦的なタスクとして設計されている。
OpenSCADという戦場の選択
今回のベンチマークで使用されたOpenSCADは、3Dモデルをプログラムコードで記述する「プログラマブル3Dモデラー」だ。BlenderやFusion 360のようなGUIツールとは異なり、すべての形状を数学的な記述とブール演算の組み合わせで構築する。
ModelRiftがOpenSCADを選んだ理由は実用的だ。同社のプラットフォームではすべての3Dモデルに対してOpenSCADコードを自動生成しており、LLMの空間幾何学処理能力が直接サービスの品質に影響するためだ。また、OpenSCADはモデルがプレーンテキストコードとして表現されるため、LLMが「半径周りに28本の列柱を配置」や「ドームから天窓部分を減算」といった構造的指示を直接記述できる利点がある。
圧倒的だったGoogleシステムの実装
6つのAIツールに統一プロンプトでパンテオン神殿の再現を競わせた結果、最も優秀な成果を上げたのはGoogle Gemini Flash系のシステムだった。他のシステムとの決定的な違いは、単に参考画像を見るだけでなく、実際のパンテオンの建築データを検索して正確な寸法を使用した点にある。
最も印象的だったのは天井の実装だ。パンテオン神殿の内部ドームには28個の格子からなる5つのリングが存在するが、Googleシステムは自律的にこの象徴的な格天井パターンまで完全実装した。オクルス(中央の円形天窓)を通して見える繰り返し四角形の格子構造まで数学的に再現している。
他のシステムの結果は以下の通り:
- ModelRift(人間協調モード): 反復的なフィードバックワークフローで高品質を実現
- Claude系: クリーンな形状とバランスの取れた比例を実現したが詳細度で劣る
- Codex系: エンタブラチュア(柱上部の装飾)への彫刻まで含む高い詳細密度
- Cursor: 最速実行だが最も粗い仕上がり
浮き彫りになったワークフローの重要性
興味深い発見として、AIモデル自体の性能と同程度にクライアントワークフローが重要だった点が挙げられる。例えば、LLMが参考画像を会話内で直接表示するシステムでは、エージェントが意図した参考資料を実際に使用しているかをリアルタイムで確認できる利便性があった。
また、すべてのシステムがローカルのOpenSCADツールチェーンを適切に処理できた一方で、制限要因となったのは幾何学的判断力、適切なカメラアングルの設定、プレビューモデルのクリーンなメッシュ出力といった、より高次の空間認識能力だった。
3DモデリングAIの現在地
このベンチマークは、生成AIの空間認識能力の現在地を示す重要な指標となっている。特に注目すべきは、単純な形状生成を超えて、実世界の複雑な建築物をパラメトリックコードで再現する能力において、システム間で大きな性能差が存在することだ。
建築・製造業界では3Dモデリングの自動化需要が急速に高まっており、今回のようなベンチマークは各AIシステムの実用性を測る重要な指標となる。Googleシステムが示した「実データ検索と数学的実装の組み合わせ」というアプローチは、今後のAI支援設計ツールの方向性を示唆している可能性がある。
詳細はOpenSCAD LLM Benchmark: Building the Pantheonを参照していただきたい。