ai-forever / ru-gpts

Russian GPT3 models.
Apache License 2.0
2.08k stars 444 forks source link

Чувствительные данные в обучающем корпусе #52

Closed albatross668 closed 3 years ago

albatross668 commented 3 years ago

Здравствуйте. Скажите, пожалуйста, обучающий корпус каким-нибудь образом очищался от чувствительных данных? Или при обучении использовались какие-то методы, мешающие получению непреднамеренно запомненных моделью данных? Например, методы дифференциальной конфиденциальности? Просто не хотелось бы, чтобы при генерации текста кто-то из пользователей получил ответ, содержащий персональные данные какой-нибудь личности. Спасибо.

king-menin commented 3 years ago

При обучении использовались открытые данные, собранные из интернета, например русская часть из c4 корпуса. Никаких методов про анонимизацию не использовались