关于多轮对话评测的疑问

SupritYoung / Zhongjing

A Chinese medical ChatGPT based on LLaMa, training from large-scale pretrain corpus and multi-turn dialogue dataset.

Apache License 2.0

303 stars 29 forks source link

Closed lisdarr closed 10 months ago

lisdarr commented 1 year ago

您好！我没有看到推理阶段的代码，想问一下，评测多轮对话的具体过程是如何实现的？是提供instruction + 全部history，来评估模型的output吗？还是instruction + 逐条提供history，评测模型每一步的输出？

lisdarr commented 1 year ago

还有一个补充疑问：对于多轮对话，人工评估准确性的时候，针对的是每一条回复，还是针对一个患者的整体答复。期待您的解答！！！

SupritYoung commented 1 year ago

针对整体回复进行评估

还有一个补充疑问：对于多轮对话，人工评估准确性的时候，针对的是每一条回复，还是针对一个患者的整体答复。期待您的解答！！！

SupritYoung commented 1 year ago

您好！我没有看到推理阶段的代码，想问一下，评测多轮对话的具体过程是如何实现的？是提供instruction + 全部history，来评估模型的output吗？还是instruction + 逐条提供history，评测模型每一步的输出？

全部的history，使用论文附录里的模板直接调用 GPT API 就可以了，对结果再做一个简单的过滤。