ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
ARANK
TL;DR14個の「日本語が話せるLLM」(日本製・外国製問わず)の性能を、日本語データセット ELYZA-tasks-100 で横断評価しました海外勢70Bモデルの性能が高いことがわかりました…
TL;DR14個の「日本語が話せるLLM」(日本製・外国製問わず)の性能を、日本語データセット ELYZA-tasks-100 で横断評価しました海外勢70Bモデルの性能が高いことがわかりました…