GPT・Claudeが金融タスクで50%台に沈んだ理由 — 「正解が一度も公開されたことがないデータ」にはフロンティアモデルが勝てない
DRANK

7月3日、The Decoderが「GPT and Claude failed Bridgewater's finance tests because the right answers were never public」と題した記事を公開した。ヘッジファンドのBridgewaterがファインチューニングした独自モデルが、GPT・Claudeといった最先端の大規模言語モデルを金融評価タスクで上回ったという報告だ。最先端モデルの精度が**約50%にとどまる一方、ファインチューニングモデルは84.7%**を達成し、コストは約14分の1という結果が示されている。

by @tf_official
Related Topics: AI Machine Learning Fintech