
GPT-5の凄い能力~論文を読ませて応用課題が解けるようになった……と思ったけど、Gemini 2.5 Proも解けるようになっていた件
ARANK
はじめにこんばんは。GPT-5がリリースされてはや数日。ニュース記事に掲載されたうたい文句はともかく、好評よりはEQの性能低下によるあれこれ(#keep4o騒動参照)や、純粋な意味でそこまで性能が上がっていないのでは(むしろ低下した部分も大きいのでは)といった声もよく見聞きする気がします。主観ではありますが、#keep4o騒動の話を脇に置いても、Xを見る限り期待したほどの高い評価は得られていないようです。筆者もその点は部分的に同感で、GPT-4oより性能が下がった部分はあるようにも感じられます。他方、従来ありえないほどの高い性能を発揮した例もあり、かつ、このような素晴らしい性能についてはあまり知られてないようです。というわけで、GPT-5が素晴らしい性能を発揮した例についてここに記しておきます……とできるとよかったのですが、記事執筆中に最新のGemini 2.5 Proでやらせてみたら解けてしまったので、記事タイトルごと変更しておきました。加えて、そのせいで記事終盤がgdgdになっていますがご容赦を。論文読解ベンチマークLLMのベンチマークには様々なものがあり、そのスコア向上を目指して、日々多くのLLM開発者がしのぎを削っているような状態…