yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.93k stars 360 forks source link

训练集测试集划分导致数据泄漏 #108

Closed yongqiangning closed 1 year ago

yongqiangning commented 1 year ago

在read me里,明确写 train_data.csv,test_data.csv,valid_data.csv这三个数据里面,不要有数据相同的,不然会造成数据泄漏 但是文件code_01_processdata.ipynb 中train ,test, valid的划分方式明显有数据泄漏啊

yuanzhoulvpi2017 commented 1 year ago
  1. readme.md里面写train_data.csv,test_data.csv,valid_data.csv这三个数据里面,不要有数据相同的是为了:让人能知道这三个数据不要有重复的数据。
  2. 但是文件code_01_processdata.ipynb 中train ,test, valid的划分方式明显有数据泄漏是为了节约数据处理时间,图个省事。