微调出来会有不礼貌或攻击性的言语

datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型，更适合中国宝宝的部署教程

Apache License 2.0

8.24k stars 985 forks source link

Open 1737686924 opened 4 months ago

1737686924 commented 4 months ago

是语料的问题吗，qwen-7b-chat和baichuan2-7b-chat使用甄嬛数据集微调训练后，出现回答会有抵制性语言，具体表现在你骂它，他会反骂人。

KMnO4-zx commented 4 months ago

正常的，那可是嬛嬛，你骂嬛嬛一句，还不许嬛嬛还嘴啦？哈哈哈啊哈

1737686924 commented 4 months ago

正常的，那可是嬛嬛，你骂嬛嬛一句，还不许嬛嬛还嘴啦？哈哈哈啊哈

1737686924 commented 4 months ago

正常的，那可是嬛嬛，你骂嬛嬛一句，还不许嬛嬛还嘴啦？神奇，在这一方面达到人类的水平

chopin1998 commented 3 months ago

可能是基础模型的问题吧，我用的qwen2， ta会说 “皇上，臣妾失言。 ”