7月12日、The Registerが「AI coding tools make developers slower, study finds」と題した記事を公開した。この記事では、AIコーディングツールが経験豊富な開発者の生産性をかえって低下させたという実験結果について詳しく紹介されている。

以下に、その内容を紹介する。
METRの無作為化比較試験の概要
非営利研究団体 Model Evaluation & Threat Research(METR)は、16 名の熟練オープンソース開発者を対象に、実際のバグ修正や新機能実装など計 246 件の課題を処理させる実験を実施した。
各課題は「AIツール使用可」または「使用不可」に無作為に割り当てられ、 開発者は自ら選んだ生成AI支援環境(主に Cursor Pro+Claude 3.5/3.7 Sonnet)を利用した。作業期間は 2025 年2 月から6 月にわたる。
期待と現実のギャップ
- 開発者は事前に「AIで24 %高速化できる」と予測した。
- 実際には 19 %の遅延 が発生し、完了後の自己評価でも「20 %短縮できたはずだ」と誤認していた。
- つまり、体感と計測結果が真逆になった。
なぜ遅くなったのか――5 つの要因
- AI有用性への過度な楽観 ― 期待値が高すぎた。
- リポジトリへの高い精通度 ― そもそも熟練者にはAIが教えることが少なかった。
- 巨大かつ複雑なコード基盤 ― 100 万行級リポジトリではAIの理解力が追いつかなかった。
- AI提案の低信頼性 ― 生成コードの44 %未満しか採用できず、検証・修正に時間を消費した。
- 暗黙の文脈不足 ― AIがプロジェクト固有の前提を把握できなかった。
研究者はこのほか、生成待ちのレイテンシやプロンプト最適化不足も影響した可能性を示唆するが、定量的な寄与は不明としている。
「コーディング時間」より「AI対応時間」が増加
付録の図表によると、AI許可時はコーディングや資料検索に費やす時間が減り、
- プロンプト作成
- AI出力の待機
- 生成結果のレビュー
- 手戻り修正
が大きな割合を占めた。結果として、能動的な開発作業が圧迫された。
他研究との整合性
同様の傾向は過去の複数研究でも確認されている。たとえば、AIスタートアップ Qodoの調査では「AI提案の検証コストが利点を相殺する」ことが報告された。デンマークの経済調査では生成AIが雇用・賃金に影響を与えていないという結果が出ており、Intelの社内実験や中国の電力会社コールセンターでも「AIが一部工程を加速させる一方で新たな手間を生む」と指摘されている。
結論と今後の展望
論文著者の Joel Becker、Nate Rush、Beth Barnes、David Rein は「今回の遅延は特定条件下のスナップショットであり、AIツールが常に無益とは限らない」と強調する。リポジトリ規模や開発者の熟練度が異なる状況では、生成AIが効果を発揮する余地は残る。将来のモデル改良と運用手法の洗練により、生産性向上が実現する可能性は否定できない。
詳細はAI coding tools make developers slower, study findsを参照していただきたい。