MediaBrain-SJTU / MING

明医 (MING):中文医疗问诊大模型
Apache License 2.0
851 stars 108 forks source link

训练数据 #4

Open Olivia-xu opened 1 year ago

Olivia-xu commented 1 year ago

想咨询下,楼主如何保证训练数据的准确率的

donote commented 1 year ago

想咨询下,楼主如何保证训练数据的准确率的

对领域知识使用chatgpt生成指令样本,假定了chatgpt有足够能力对给定的领域知识进行理解,通过prompt尽量挖掘出chatgpt的这种领域知识理解能力,进而转换为所需要的指令样本。 「楼主如何保证训练数据的准确率的」在没有人为介入的情况下,没法保证数据完全准确,实际上在开源底座模型上进行指令微调,可以看着是在追赶&拟合chatgpt的能力,所以把chatgpt做为teacher得到的微调数据是可以接受的。

applepieiris commented 1 year ago

数据的开源太重要了,现在才觉得instruction tuning的开拓者斯坦福的羊驼模型是多么的慷慨,开源了自己的finetune数据集