Closed wzwz180 closed 1 year ago
你们做的这个模型很有价值,我们也会参考到,所以请尽快回复可以吗
@wzwz180 你好,很不好意思回晚了,非常抱歉。 在多转对话的人工评估中,我们不是采用意图问题(这是单轮问答评估用的问题),我们是使用真实的患者病例来让AI模拟病人,并让模拟的病人询问不同的模型。由于是是真实场景下患者的问诊过程,医生会有一个相对客观的诊断和治疗经验,他们是以专业的角度来评测模型给出诊断、治疗方案甚至是药物处方的合理性或准确性进行比较打分的。 很感谢你的问题和关注,我们已经注意评测这一块论文写的不够清楚,后续论文我们将会继续改进下。
Best, Junying
关于评测,期待有更详细的说明
感谢回答 期待更详细的说明 麻烦问一下修改后论文多久放出来
我们利用100个KUAKE-QIC问题(与自动评估中的问题相同)作为测试集进行单转问题评估,并从自动评估中使用的100个测试案例中随机抽取50个病人案例进行多转对话的人工评估。 在对HuatuoGPT进行人工评估时,我们认为应考虑以下三个方面:诊断准确性,治疗方案准确性,药物处方知识准确性。并将其作为评估的准则。 但是我看评估结果并没有从这三个方面进行评估,也没有提到100个问题,代表10种意图(病情诊断、病因分析、治疗方案、医疗建议、指标解释、疾病描述、后果描述、注意事项、疗效、医疗费用),意思是仅仅告诉医生参考这三个方面,仍按照医生自己的主观判断进行评估是吗,所以我想问一下具体人工质量评估的标准方案是怎么样的,谢谢