THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型
Apache License 2.0
13.33k stars 1.55k forks source link

训练数据中含有敏感词汇,比如威胁自杀等,应该如何处理? #1112

Closed RyanOvO closed 5 months ago

RyanOvO commented 5 months ago

System Info / 系統信息

A10

Who can help? / 谁可以帮助到您?

None

Information / 问题信息

Reproduction / 复现过程

基于GLM3微调,训练数据集中含有敏感词汇,模型输出空白,后续无论在如何询问,都是返回空白。

Expected behavior / 期待表现

解决敏感词汇的输入下,模型返回空白,正常回复的问题

zRzRzRzRzRzRzR commented 5 months ago

开源模型没有做工程处理,你需要自己做屏蔽词管理