多轮对话评估问题

haidequanbu commented 4 months ago

作者，您好，从大模型过来学习，之前没有做过传统模型的多轮对话的自动化指标评估，关于自动化评估有一些问题想请教，如果冒昧，还请海涵！想请问下论文中多轮对话这些指标是怎么计算的？ppl比较好理解，Rouge、bleu等指标是怎么计算得到的呢？按照计算来看应该是有模型生成的多轮对话与和ground truth的多轮对话比较，第一轮对话的生成比较好理解，后几轮的对话模型是如何生成的呢？

chujiezheng commented 4 months ago

后续轮次的回复是把前几轮的ground truth对话历史输入给模型生成的。

haidequanbu commented 4 months ago

理解了，感谢回复！

thu-coai / Emotional-Support-Conversation

多轮对话评估问题 #36