JGLUEの構築そして日本語LLM評価のこれから, 2023

JGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ（方法）がまとまっている（AlpacaEval, MTBenchなど）。また、LLMにおける自動評価の課題（図は資料より引用）が興味深く、LLM評価で生じるバイアスについても記述されている。Name biasなどはなるほどと思った。

日本語LLMの今後の評価に向けて、特にGPT4による評価を避け、きちんとアノテーションしたデータを用意しfinetuningした分類器を用いるという視点、参考にしたい。

AkihikoWatanabe / paper_notes

JGLUEの構築そして日本語LLM評価のこれから, 2023 #1139

AkihikoWatanabe / paper_notes

JGLUEの構築そして 日本語LLM評価のこれから, 2023 #1139

JGLUEの構築そして日本語LLM評価のこれから, 2023 #1139