GPT・Claudeが金融タスクで50%台に沈んだ理由 — 「正解が一度も公開されたことがないデータ」にはフロンティアモデルが勝てない

7月3日、The Decoderが「GPT and Claude failed Bridgewater's finance tests because the right answers were never public」と題した記事を公開した。ヘッジファンドのBridgewaterがファインチューニングした独自モデルが、GPT・Claudeといった最先端の大規模言語モデルを金融評価タスクで上回ったという報告だ。最先端モデルの精度が**約50%にとどまる一方、ファインチューニングモデルは84.7%**を達成し、コストは約14分の1という結果が示されている。

フロンティアモデルが50%台に沈んだ金融タスクとは

BridgewaterのAIA Labsと、元OpenAI CTOのMira Muratiが2024年に創業したThinking Machines Labが共同レポートを発表した。テーマは「投資家の日常判断をAIで自動化できるか」だ。なお、ここで言う「フロンティアモデル」とは、OpenAIのGPTシリーズ、AnthropicのClaude、GoogleのGeminiといった、現時点で最高水準の性能を持つ大規模言語モデルの総称を指す。

投資家は日々、ニュース・企業開示書類・メール・分析レポートの洪水にさらされている。本当に難しいのは読むことではなく、「これは重要か？」という小さな判断を絶え間なく繰り返すことだ。熟練した投資家ならほぼ反射的にこなすが、その判断基準を言語化するのは難しい。

研究チームは投資家の日常業務から6つのタスクを定義した。具体的には、以下のような判断が含まれる。

「ある金融記事が特定の経営幹部にとって関連性があるか」
「中央銀行の文書が将来の利上げ・利下げ方向を示唆しているか」
企業開示書類やニュースの緊急度・重要度の分類
メールや分析レポートの内容が特定の投資判断に影響するかの評価
地政学的イベントとポートフォリオの関連度の判定
マクロ経済指標の変化が特定セクターに与える影響度の判断

レポートが示す具体例が示唆深い。トランプ大統領のグリーンランド領有権主張に関するニュースは「関連なし」、中国への新関税脅迫は「高関連」と判定される。どちらも地政学と金融が絡むが、判断は真逆になる。評価軸は「関連かつ興味深い」「関連だが興味なし」「無関連」の3段階で設定されており、シンプルな二値分類ではない点が難易度を高めている。

なぜフロンティアモデルは失敗したか

GeminiやClaude、GPTの各バリアントを単純なプロンプトで評価したところ、精度は約50%にとどまった。専門家が記述した詳細な指示文と3段階評価システムを導入しても、精度は70%台中盤にとどまり、研究チームが信頼できるデプロイの基準とした80%を下回った。

コストを増やしても改善は限定的だ。レポートによると、あるGPTの上位バリアントは比較対象の下位バリアントより43%コストが高いにもかかわらず、精度の改善はわずかだったという。なお、元記事では具体的なモデル名の表記が曖昧な部分があるため、本稿では「GPTの各バリアント」と記す。

フロンティアモデルが苦戦した根本的な理由は明確だ。正解データが一度も公開されたことがないからだ。Bridgewaterの投資家が蓄積してきた判断の基準は、学術論文にも、公開ベンチマークにも、ウェブ上にも存在しない。OpenAIがどれだけデータを集めても、吸収できないタイプの知識だ。

ファインチューニングで84.7%を達成したアプローチ

解決策はオープンウェイトモデルのファインチューニングだった。ただし、データ収集のプロセスが工夫されている。

最初は安価な外部アノテーターに文書のラベリングを依頼したが、多くのラベルが誤っていた。かといって、すべてを高コストな専門家に再レビューさせるのは非現実的だ。そこで研究チームは次の手順を取った。

不完全なラベルでまず第1モデルを学習させる
その第1モデルに同じ文書を再評価させる
モデルの判定と元ラベルが食い違った箇所だけを投資家に送って修正を依頼する

差分を拾うことで、専門家のレビューコストを最小化しながら、高品質な正解データを生成するアプローチだ。

トレーニングはThinking Machines LabのTinkerプラットフォーム上で実行された。Tinkerはオープンウェイトモデルのファインチューニングに特化したAPIで、Thinking Machines Labが2025年に公開したサービスだ。ベースモデルにはAlibaba製の大規模MoEモデルであるQwen3-235Bが使われた。

結果として、ファインチューニングされたモデルは84.7%の精度を達成した。テスト対象のフロンティアモデル最高値は78.2%であり、精度で上回りつつ、実行コストは約14分の1だ。

数字の背後にある本質的な論点

ただし、この評価は独立した第三者によるものではない。BridgewaterもThinking Machines Labも、自社のサービスを売る立場にある。数字の解釈には留意が必要だ。

それでも、この事例が示す構造的なポイントは重要だ。企業が意図的に非公開にしてきた独自データと内部専門知識には、フロンティアモデルが入り込めない余地がまだ大量に存在する。そして、その非公開データをOpenAIなどのフロンティアラボに渡せば、そのデータを元に構築されたプロダクトと競合するリスクがある。

Tinkerのようなツールでオープンモデルをファインチューニングするアプローチは、ウェイト・データ・場合によってはGPU自体を自社で保持したまま、高性能なモデルを構築する選択肢を企業に提供する。フロンティアモデルの「汎用性の高さ」が、特定ドメインの「深さ」に敗れるケースは、今後も増えていく可能性がある。

詳細はGPT and Claude failed Bridgewater's finance tests because the right answers were never publicを参照していただきたい。