人だと正解率92％なのに、GPT-4だと15％になる新型テスト集「GAIA」　米Metaなどが開発

人だと正解率92％なのに、GPT-4だと15％になる新型テスト集「GAIA」　米Metaなどが開発
ARANK

米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル（LLM）を評価するためのベンチマークを発表した。

itmedia.co.jp 3 years ago