6月30日、Mike Vizardが「Survey: More AI Code Running in Production Environments with Caveats」と題した記事を公開した。AIが生成したコードの本番環境への採用が広がる一方、セキュリティや品質への懸念からコードレビューがDevOpsのボトルネックになりつつある実態について詳しく紹介されている。
「書いても使わない」コードが35%——本番採用率は44.7%にとどまる
エンジニアリングインテリジェンスプラットフォームを提供するFlux(AIコード生成の可視化・品質管理を支援するプラットフォームベンダー)の委託で、エンタープライズIT分野の調査を専門とするDimensional Researchが実施した、309人のソフトウェアエンジニアリングリーダーを対象としたグローバル調査の結果が公開された。
最も端的な数字を先に挙げると、AIコーディングツールで生成したコードを実際に本番環境で動かしている組織は44.7%にとどまる(本記事では元プレスリリースの表記に合わせ44.7%と記載する)。一方で81%の組織がAIコード生成を前提にした開発・リリースプロセスの見直しを行っている。つまり、プロセスを変えたのに、本番には出せていない組織が相当数存在する。
さらに踏み込んだ数字として、35%の組織はAIにコードを書かせるが、そのコードを一切デプロイしないと回答している。「生成はする、でも使わない」というパターンが現場で定着しつつある実態を示している。
コードレビューがボトルネック化——週次で発生するリスクの内訳
Flux CTOのAaron Bealsは、AIコーディングツールの恩恵を認めつつも「両刃の剣」と表現する。週次で発生しているAIコード起因のリスクとして、調査では以下が挙げられた。
- セキュリティ上の問題:49%
- **依存関係の変更(dependency changes):48%**(外部ライブラリのバージョンや構成が意図せず変更されるリスク)
- パフォーマンスへの影響:44%
こうしたリスクへの対策として、46%がコード品質分析ツールを購入済み、39%が自動コードレビューをワークフローに追加している。さらに80%の組織がコードレビューに週の10%以上の時間を費やしているという。
問題の根本は、AIが生成するコードの量が人間のレビュー能力を超えつつある点だ。Bealsは「レビューは依然として人間が担っているが、生成されるコードの量に圧倒されている」と指摘する。
なぜAIコードのレビューは難しいのか
AIコードのレビューが困難な理由は、量だけではない。開発者が自分で書いていないコードには「なぜそう書いたか」のコンテキストが存在しない。人間が書いたコードなら設計意図を作者に確認できるが、AIが生成したコードにはその経緯がない。
技術的な背景としても、現在流通している多くのAIモデルは欠陥を含むコードで学習されており、結果として生成されるコードにも脆弱性が混入しやすい。構造としては整っていても、冗長になりがちという性質があり、アタックサーフェス(攻撃者が悪用できるシステムの露出面の総体)の拡大と処理コストの増加につながる。
AIが任されているタスクの実態
現状、組織がAIに任せることに積極的なのはリスクの低いタスクに集中している。
- ドキュメント生成:69%
- ユニットテスト:66%
- シンプルな関数の実装・コードレビュー:各58%
複雑なビジネスロジックやセキュリティ要件が絡む領域では、まだ人間が主導している構図だ。
次のステップ:AIがAIのコードをレビューする時代へ
Bealsは短期的な課題として、旧バージョンのAIモデルで生成された品質の不確かなコードをいかに処理するかを挙げる。長期的には、「別のAIモデルをベースにしたサードパーティのAIエージェントが、別のAIエージェントの書いたコードをレビューする」構造が不可避だと述べている。
いずれにせよ、AIコーディングツールはすでに現場に根付いており、後退は現実的でない。DevSecOps(開発・セキュリティ・運用を統合したソフトウェア開発手法)ワークフローをAI前提で再設計する段階に入っている。
詳細はSurvey: More AI Code Running in Production Environments with Caveatsを参照していただきたい。