datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
Apache License 2.0
8.24k stars 985 forks source link

微调出来会有不礼貌或攻击性的言语 #108

Open 1737686924 opened 4 months ago

1737686924 commented 4 months ago

是语料的问题吗,qwen-7b-chat和baichuan2-7b-chat使用甄嬛数据集微调训练后,出现回答会有抵制性语言,具体表现在你骂它,他会反骂人。

KMnO4-zx commented 4 months ago

正常的,那可是嬛嬛,你骂嬛嬛一句,还不许嬛嬛还嘴啦?哈哈哈啊哈

1737686924 commented 4 months ago

正常的,那可是嬛嬛,你骂嬛嬛一句,还不许嬛嬛还嘴啦?哈哈哈啊哈

image

1737686924 commented 4 months ago

正常的,那可是嬛嬛,你骂嬛嬛一句,还不许嬛嬛还嘴啦?神奇,在这一方面达到人类的水平

chopin1998 commented 3 months ago

可能是基础模型的问题吧, 我用的qwen2, ta会说 “皇上,臣妾失言。 ”