2月24日、海外のテクノロジー/サイエンスメディアFuturismが「OpenAI Researchers Find That Even the Best AI Is "Unable To Solve the Majority" of Coding Problems(OpenAIの研究者は、最高のAIでさえ「コーディング問題の大半を解決できない」ことを発見した)」と題した記事を公開した。この記事では、OpenAIの先進的なAIモデルが多数のコーディング課題の解決において、人間のエンジニアに劣る点について詳しく紹介されている。
OpenAIの研究者らは、最も高度なAIモデルであっても依然として人間のプログラマーに太刀打ちできないことを認める論文をarxivに投稿した。これは、CEOのサム・アルトマン氏が年内に「低レベルな」ソフトウェアエンジニアを凌駕できると主張しているのとは真逆であると言えるだろう。
研究チームは、海外のジョブマッチングサービスUpworkにおいて公開されている、1,400を超えるソフトウェアエンジニアリングタスクを基に構築された新たなベンチマーク「SWE-Lancer」を用いた。これにより、OpenAIのo1 reasoningモデルおよび主力のGPT-4o、さらにAnthropicのClaude 3.5 Sonnetという3つの大規模言語モデル(LLM)がテストされた。
ベンチマークでは、個別のタスクと管理タスクの2種類が評価された。個別タスクは、バグの修正やそのための実装作業を伴い、管理タスクはより高次の判断を求められるものであった。いずれのタスクにおいても、モデルは数十万ドル相当のタスクに挑戦したものの、 表面的なソフトウェアの不具合の修正に留まり、規模の大きなプロジェクトに潜むバグやその根本原因を特定することには至らなかった。
この結果は、 AIは自信に満ちた情報を瞬時に出力する一方で、実際には不十分で中途半端な「解決策」を提示している — という性質を如実に示している。論文によれば、3つのLLMはいずれも人間以上の速さで動作することが認められたが、バグの蔓延や文脈を十分に把握できず、不正確または包括性に欠ける解答に終始した。
結果として、Claude 3.5 Sonnetはその他の2つのOpenAIモデルよりも優れた性能を示し、経済的な成果においても上回る結果を残した。しかしながら、その回答の大部分は誤りであったことから、実際のコーディングタスクに信頼して任せるには「より高い信頼性」が求められると研究者らは指摘している。
この論文は、現在のAIモデルが迅速かつ局所的なタスクには対応可能である一方で、 複雑な問題全体を把握し、根本的な解決を行う能力においては人間のエンジニアに遠く及ばない ことを示唆している。近年、LLMは急速に進化を遂げており、今後さらなる発展が期待されるものの、現時点では実務における人間の役割を完全に代替するには至っていない。
現在一部のCEOが人間のプログラマーを解雇し、未熟なAIモデルへの切り替えを進める動きが見受けられるが、現状の技術水準では、AIが実際のソフトウェア開発を担うには多くの課題が残されていることが明らかになったと言えよう。
詳細は[OpenAI Researchers Find That Even the Best AI Is "Unable To Solve the Majority" of Coding Problems]を参照していただきたい。