Open maxchiron opened 6 months ago
我们粗暴的把眼科书籍中的任意一段话,扔给大语言模型(比如,自己搭建一个interlm2-chat-20b-4bit),然后让大语言模型根据这段话构建 对话数据。这个可以参考 chat huanhuan项目的如何从小说中构建数据集。https://github.com/KMnO4-zx/extract-dialogue。 我们还加了眼科习题的数据(单选题)
我根据实际训练结果来提供一些经验:
在微调阶段,一定要保证数据的质量,不然性能不升反降。
学习了,感谢分享 👍
请问大佬,增量预训练数据量大约有多少?领域数据:通用数据比多少呢?
请问大佬,增量预训练数据量大约有多少?领域数据:通用数据比多少呢?
如果仅仅用来体验 agent 工具调用能力,可以不微调,使用 InternLM2-chat-7b就行
如果想在医疗领域回答的更好,这需要微调。但是微调的数据量/以及与通用数据的比例你还是参考权威文献吧,我没找到最佳实践,不敢误导别人。
谢谢~