ESMM全量数据生成缺失reader.py文件

PaddlePaddle / PaddleRec

Recommendation Algorithm大规模推荐算法库，包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM，DSIN，SIGN，IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM，TiSAS，AutoFIS等，包含经典推荐系统数据集criteo 、movielens等

https://paddlerec.readthedocs.io/

Apache License 2.0

4.26k stars 721 forks source link

ESMM全量数据生成缺失reader.py文件 #819

Open AlbusWei opened 2 years ago

AlbusWei commented 2 years ago

ali-ccp文件夹下，data_process.sh文件里面有一行 python reader.py --train_data_path ${train_target_path} \ --test_data_path ${test_target_path} \ --vocab_path vocab/vocab_size.txt \ --train_sample_size 6400 \ --test_sample_size 6400 \ 但是ali-ccp文件夹下没有reader.py文件，而使用run.sh下载的10m数据集复现不了文档中说的效果，auc停留在0.5x 想要下载全量数据，但是没有reader，也无法反推数据处理的方式

wangzhen38 commented 2 years ago

可以通过run.sh获取10w数据哈，如果想获取全量数据可以去论文所给地址下载，处理脚本可以参考这个reader