Closed haidequanbu closed 4 months ago
作者,您好,从大模型过来学习,之前没有做过传统模型的多轮对话的自动化指标评估,关于自动化评估有一些问题想请教,如果冒昧,还请海涵! 想请问下论文中多轮对话这些指标是怎么计算的?ppl比较好理解,Rouge、bleu等指标是怎么计算得到的呢?按照计算来看应该是有模型生成的多轮对话与和ground truth的多轮对话比较,第一轮对话的生成比较好理解,后几轮的对话模型是如何生成的呢?
后续轮次的回复是把前几轮的ground truth对话历史输入给模型生成的。
理解了,感谢回复!
作者,您好,从大模型过来学习,之前没有做过传统模型的多轮对话的自动化指标评估,关于自动化评估有一些问题想请教,如果冒昧,还请海涵! 想请问下论文中多轮对话这些指标是怎么计算的?ppl比较好理解,Rouge、bleu等指标是怎么计算得到的呢?按照计算来看应该是有模型生成的多轮对话与和ground truth的多轮对话比较,第一轮对话的生成比较好理解,后几轮的对话模型是如何生成的呢?