训练数据中含有敏感词汇，比如威胁自杀等，应该如何处理？ - Githubissues

THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型

Apache License 2.0

13.33k stars 1.55k forks source link

训练数据中含有敏感词汇，比如威胁自杀等，应该如何处理？ #1112

Closed RyanOvO closed 5 months ago

RyanOvO commented 5 months ago

System Info / 系統信息

A10

Who can help? / 谁可以帮助到您？

None

Information / 问题信息

[X] The official example scripts / 官方的示例脚本
[X] My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

基于GLM3微调，训练数据集中含有敏感词汇，模型输出空白，后续无论在如何询问，都是返回空白。

Expected behavior / 期待表现

解决敏感词汇的输入下，模型返回空白，正常回复的问题

zRzRzRzRzRzRzR commented 5 months ago

开源模型没有做工程处理，你需要自己做屏蔽词管理