关于4.3节人工评估的细节能否进一步补充

wzwz180 commented 1 year ago

我们利用100个KUAKE-QIC问题（与自动评估中的问题相同）作为测试集进行单转问题评估，并从自动评估中使用的100个测试案例中随机抽取50个病人案例进行多转对话的人工评估。在对HuatuoGPT进行人工评估时，我们认为应考虑以下三个方面：诊断准确性，治疗方案准确性，药物处方知识准确性。并将其作为评估的准则。但是我看评估结果并没有从这三个方面进行评估，也没有提到100个问题，代表10种意图（病情诊断、病因分析、治疗方案、医疗建议、指标解释、疾病描述、后果描述、注意事项、疗效、医疗费用），意思是仅仅告诉医生参考这三个方面，仍按照医生自己的主观判断进行评估是吗，所以我想问一下具体人工质量评估的标准方案是怎么样的，谢谢

wzwz180 commented 1 year ago

你们做的这个模型很有价值，我们也会参考到，所以请尽快回复可以吗

jymChen commented 1 year ago

@wzwz180 你好，很不好意思回晚了，非常抱歉。在多转对话的人工评估中，我们不是采用意图问题（这是单轮问答评估用的问题），我们是使用真实的患者病例来让AI模拟病人，并让模拟的病人询问不同的模型。由于是是真实场景下患者的问诊过程，医生会有一个相对客观的诊断和治疗经验，他们是以专业的角度来评测模型给出诊断、治疗方案甚至是药物处方的合理性或准确性进行比较打分的。很感谢你的问题和关注，我们已经注意评测这一块论文写的不够清楚，后续论文我们将会继续改进下。

Best, Junying

wuxiuxiunlp commented 1 year ago

关于评测，期待有更详细的说明

wzwz180 commented 1 year ago

感谢回答期待更详细的说明麻烦问一下修改后论文多久放出来

FreedomIntelligence / HuatuoGPT

关于4.3节人工评估的细节能否进一步补充 #14