SCIR-HI / Huatuo-Llama-Med-Chinese

Repo for BenTsao [original name: HuaTuo (华驼)], Instruction-tuning Large Language Models with Chinese Medical Knowledge. 本草(原名:华驼)模型仓库,基于中文医学知识的大语言模型指令微调
Apache License 2.0
4.37k stars 432 forks source link

数据集必须是instruct的形式吗? #16

Closed dyabc1 closed 1 year ago

dyabc1 commented 1 year ago

肝癌疾病的中文医学文献,这个数据后面转换成了instruct的形式。想请问下,有没有可能不做转换?

DYR1 commented 1 year ago

如果使用这套代码,只需要保持和我们提供的数据集格式一致即可,否则需要进一步修改代码

dyabc1 commented 1 year ago

再目前代码前提下,保持跟目前数据集格式一致,这个可以理解。就是想请教下抛开目前的ft方法,有没有其他的形式将知识嵌入搞模型里面。

DYR1 commented 1 year ago

最直观的方法应该就是尝试将“知识”融入对话中,让模型显示的去学习。但据目前实验来看,这种方式并不能够保证模型准确的学会细粒度的知识。目前,正在探究是否有其他方法能够更好的将“知识”融入大模型。

dyabc1 commented 1 year ago

好的,感谢