6月2日、Microsoftが「Introducing MAI-Code-1-Flash」と題した記事を公開した。
より少ないトークンで上位モデルを凌駕
Microsoft AI部門が発表したコード生成特化AI「MAI-Code-1-Flash」が、Claude Haiku 4.5を全ベンチマークで上回りながら、最大60%少ないトークン数で動作するという驚異的な効率性を実現した。特に実世界に近いタスクを評価するSWE-Bench Proでは51.2% vs 35.2%と16ポイントの大差をつけている。
コード生成AIの分野では、GitHub Copilot、Amazon CodeWhisperer、Google Codeyが激しく競争を繰り広げており、精度と効率性の両立が大きな技術課題となっていた。MAI-Code-1-Flashはその常識を覆す成果を示している。
GitHub Copilot本番環境での直接訓練という革新的手法
MAI-Code-1-Flashの最大の特徴は、実際のGitHub Copilotの本番環境ハーネス(実行基盤)で直接訓練されている点だ。従来のAIモデルがベンチマークスコア向上を重視していたのに対し、MAI-Code-1-Flashは実際の開発ワークフローを中心に据えて設計されている。
この手法により、モデルは周辺ツールやシステムとの連携方法を学習でき、エージェント型のコーディングタスク(複数の操作を組み合わせて目標を達成するタスク)に特化した能力を獲得している。訓練データには、実際のGitHub Copilot使用ログから抽出されたソフトウェアエンジニアリングタスク、リポジトリへの質問応答、リファクタリング、テレメトリベースのタスクなどが含まれている。
適応型制御でタスクに応じた最適化
MAI-Code-1-Flashは適応型ソリューション長制御という技術で訓練されている。これにより、タスクの複雑さに応じて回答の深度を自動調整し、シンプルなリクエストでは簡潔に、複雑な問題では十分な推論リソースを使って対応する。
この技術がもたらす効果は効率化にとどまらない。レイテンシの削減、コスト低下、トークンあたりのリターン向上、そしてインタラクティブなワークフローの体感速度改善を実現している。開発者が感じる「待ち時間」と「回答品質」のバランスを大幅に改善する技術だ。
本番環境での厳格な性能評価
性能評価では、Claude Haiku 4.5との比較が以下の4つのベンチマークで実施された:
- SWE-Bench Verified - 検証済みソフトウェアエンジニアリングタスク
- SWE-Bench Pro - より困難で実世界に近いタスク集
- SWE-Bench Multilingual - 多言語対応能力の評価
- Terminal Bench 2 - ターミナル操作タスクの評価
重要なのは、すべて開発者が日常的に使用する本番ハーネスと同じ環境で測定が行われた点だ。この「訓練・評価・本番環境の一貫した整合性」により、オフラインでの改善が実際の開発者体験向上に直結する設計となっている。
業界への影響
Microsoftのこのアプローチは、コード生成AI開発に新たなパラダイムを提示している。ベンチマーク最適化ではなく実用性重視の設計、本番環境との整合性、効率性と精度の両立など、今後の業界標準となる可能性が高い。特に企業向けコーディング支援ツールの分野では、MAI-Code-1-Flashの手法が参照モデルになると予想される。
詳細はIntroducing MAI-Code-1-Flashを参照していただきたい。