微调数据集策略（dataset make confuse）

目标

我希望从主播直播间抓取直播风格的语料数据进行训练。主要是风格迁移，知识能力保持。

做法

目前尝试的是internlm2.5-7b-chat。

制作conversation对，上下文分别放在input和output中，原本500条数据，增广数据（转写法）最终3000条数据。

疑问

但是看到Chat-嬛嬛 2.0（https://github.com/KMnO4-zx/huanhuan-chat ）是放在 system中的，不太明白有什么区别（跟system_prompt有不同吗？）。也有看到 chat-沪语-阿宝（https://github.com/hoo01/chat-huyu-ABao ）在system中设置的是“阿宝”，input是上文，output是下文。不太明白这些做法的差异。

效果

目前我的效果是：template训练400iter，可以有较好的风格迁移，但是知识能力有丢失，说话很短。然后4bit量化之后，会出现重复说话不停止的问题。

我的demo

数据获取：https://openxlab.org.cn/apps/detail/yisheng/ASR-funasr 7b模型体验：https://openxlab.org.cn/apps/detail/yisheng/steamlit-gpu 4bit版：https://openxlab.org.cn/apps/detail/yisheng/snh48_4bit

InternLM / xtuner

微调数据集策略（dataset make confuse） #908

目标

做法

疑问

效果

我的demo