
AI Agentの評価指標まとめ
ARANK
はじめにこんにちは.株式会社neoAIの研究開発組織 (neoAI Research) / 東京都立大学の板井孝樹です.昨今LLM based Agentの開発が盛んですが,実ユースケースへの応用においては多角的な評価が必要となります.そもそも"良いAgent"がどのような評価観点が求められるのかを知ることで,良い開発・価値提供が実現可能だと考えます.本記事では,まずLLM Agentに求められる要素能力に関する評価観点についてまとめます.そしてこれらの要素能力を包括して遂行する必要のあるタスクに関する評価指標について調査します.特に昨今のビッグテックのリリース時によく用いられる評価指標をベースに調査を行いました.LLM Agentの評価指標のサーベイに関する先行の取り組みとして,Yehudaiらの"Survey on Evaluation of LLM-based Agents"が挙げられます.こちらはよくまとまっていたので参考にさせていただきました. Agentの技術的な外観を理解する」や弊社大槻が執筆した「2024年ビッグテックのAI Agent動向まとめ」の記事にもまとめているので,こちらも併せてご覧ください. / ReasoningAgentが目標を達成するために適切な行動を計画・選択する能力.Reflection過去の行動や計…