InternLM / xtuner

An efficient, flexible and full-featured toolkit for fine-tuning LLM (InternLM2, Llama3, Phi3, Qwen, Mistral, ...)
https://xtuner.readthedocs.io/zh-cn/latest/
Apache License 2.0
3.8k stars 302 forks source link

微调数据集策略(dataset make confuse) #908

Open EasonQYS opened 1 month ago

EasonQYS commented 1 month ago

目标

我希望从主播直播间抓取直播风格的语料数据进行训练。主要是风格迁移,知识能力保持。

做法

目前尝试的是internlm2.5-7b-chat。

制作conversation对,上下文分别放在input和output中,原本500条数据,增广数据(转写法)最终3000条数据。

疑问

但是看到Chat-嬛嬛 2.0(https://github.com/KMnO4-zx/huanhuan-chat )是放在 system中的,不太明白有什么区别(跟system_prompt有不同吗?)。也有看到 chat-沪语-阿宝(https://github.com/hoo01/chat-huyu-ABao )在system中设置的是“阿宝”,input是上文,output是下文。不太明白这些做法的差异。

效果

目前我的效果是:template训练400iter,可以有较好的风格迁移,但是知识能力有丢失,说话很短。然后4bit量化之后,会出现重复说话不停止的问题。

我的demo

数据获取:https://openxlab.org.cn/apps/detail/yisheng/ASR-funasr 7b模型体验:https://openxlab.org.cn/apps/detail/yisheng/steamlit-gpu 4bit版:https://openxlab.org.cn/apps/detail/yisheng/snh48_4bit