训练数据 - Githubissues

MediaBrain-SJTU / MING

明医 (MING)：中文医疗问诊大模型

Apache License 2.0

851 stars 108 forks source link

想咨询下，楼主如何保证训练数据的准确率的

对领域知识使用chatgpt生成指令样本，假定了chatgpt有足够能力对给定的领域知识进行理解，通过prompt尽量挖掘出chatgpt的这种领域知识理解能力，进而转换为所需要的指令样本。「楼主如何保证训练数据的准确率的」在没有人为介入的情况下，没法保证数据完全准确，实际上在开源底座模型上进行指令微调，可以看着是在追赶&拟合chatgpt的能力，所以把chatgpt做为teacher得到的微调数据是可以接受的。

MediaBrain-SJTU / MING

训练数据 #4