SupritYoung / Zhongjing

A Chinese medical ChatGPT based on LLaMa, training from large-scale pretrain corpus and multi-turn dialogue dataset.
Apache License 2.0
303 stars 29 forks source link

关于多轮对话评测的疑问 #6

Closed lisdarr closed 10 months ago

lisdarr commented 1 year ago

您好! 我没有看到推理阶段的代码,想问一下,评测多轮对话的具体过程是如何实现的? 是提供instruction + 全部history,来评估模型的output吗? 还是instruction + 逐条提供history,评测模型每一步的输出?

lisdarr commented 1 year ago

还有一个补充疑问:对于多轮对话,人工评估准确性的时候,针对的是每一条回复,还是针对一个患者的整体答复。期待您的解答!!!

SupritYoung commented 1 year ago

针对整体回复进行评估

还有一个补充疑问:对于多轮对话,人工评估准确性的时候,针对的是每一条回复,还是针对一个患者的整体答复。期待您的解答!!!

SupritYoung commented 1 year ago

您好! 我没有看到推理阶段的代码,想问一下,评测多轮对话的具体过程是如何实现的? 是提供instruction + 全部history,来评估模型的output吗? 还是instruction + 逐条提供history,评测模型每一步的输出?

全部的history,使用论文附录里的模板直接调用 GPT API 就可以了,对结果再做一个简单的过滤。