数据内容清洗？ - Githubissues

songge25 commented 8 months ago

感谢开源了如此优秀的工作！美中不足想问一下数据方面是怎么做的清洗呢，简单看了一下里面其实还是有不少网页数据通病，比如黄色和内容虚构类数据。这对模型的安全性会有多大影响呢

ZiYu0427 commented 8 months ago

数据清洗是一个庞大且复杂的工作，我们已经做过了大量清洗工作，但过度清洗会误删大量数据，比如部分涉黄的关键词会命中司法相关案例关键词。我们实际开源提供了1.2T左右的数据，大家可以根据自己严格要求进行二次过滤。

影响方面，其实针对大模型安全性问题会有两种解决思路。第一种是严格筛选预训练数据，最大限度不让大模型学习任何不安全知识，意图从知识层面让大模型避免不安全的回复；第二种是大模型会学习到一些不好的知识，通过对齐方式，让大模型学习安全回复方式。类比人类行为的话，第一种更像是一个特别单纯的人所有行为都是正向的没有了解过不好的事物，回复正向但有些知识不理解；第二种更像是大众行为，知道大量正向和负向的知识，通过价值观学习和道德约束，让其在绝大多数情况下，保持正向行为。

songge25 commented 8 months ago

感谢您的建议，我这边会做二次清洗和RLHF相关工作

Tele-AI / Telechat

数据内容清洗？ #6