6月10日、Futurismが「Apple Researchers Just Released a Damning Paper That Pours Water on the Entire AI Industry」と題した記事を公開した。この記事では、アップルの機械学習研究チームが公表した論文を通じて、最新の大規模言語モデル(LLM)がうたう「推論能力」の実態に疑問を投げかけている点について詳しく紹介されている。以下に、その内容を紹介する。

アップルの研究者は、OpenAIのo3、AnthropicのClaude 3.7、GoogleのGeminiなど、業界を代表する最先端モデルの「推論力」が誇張されていると指摘した。論文を主導したのは、アップルのAI/機械学習研究ディレクターであるSamy Bengioらのチームである。
研究チームは、LLMが“Chain of Thought”と呼ばれる逐次的な思考プロセスを用いて問題を解くとされるが、その能力は十分に理解されておらず、従来のベンチマーク手法はデータ汚染の可能性があり、推論過程の質も測れていないと批判した。そこで彼らは「制御可能なパズル環境」を利用し、モデルの思考過程を可視化しながら検証した。
その結果、モデルは一定の複雑さを超えるタスクで完全に正答率が崩壊する 「精度の崖」 に直面することが分かった。トークン数が十分に与えられた環境でも性能が低下する現象を、論文では「考え過ぎ(overthinking)」と表現している。さらに、LLMは厳密な計算を苦手とし、明示的なアルゴリズムを採用せず、同種のパズル間でも一貫性のない推論を示した。
研究者らは、こうした結果が「真の推論能力」に関する業界の前提を揺さぶるものであり、 現行アプローチが一般化可能な推論に到達するうえで根本的な壁に突き当たっている可能性を示唆する と結論付けた。
詳細はApple Researchers Just Released a Damning Paper That Pours Water on the Entire AI Industryを参照していただきたい。