PaddlePaddle / PaddleRec

Recommendation Algorithm大规模推荐算法库,包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM,DSIN,SIGN,IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM,TiSAS,AutoFIS等,包含经典推荐系统数据集criteo 、movielens等
https://paddlerec.readthedocs.io/
Apache License 2.0
4.26k stars 721 forks source link

缺少reader.py #485

Open w5688414 opened 3 years ago

w5688414 commented 3 years ago

https://github.com/PaddlePaddle/PaddleRec/blob/release/2.1.0/datasets/ali-ccp/data_process.sh

缺少reader.py

echo "preprocessing data......"
python reader.py --train_data_path ${train_target_path} \
                 --test_data_path ${test_target_path} \
                 --vocab_path vocab/vocab_size.txt \
                 --train_sample_size 6400 \
                 --test_sample_size 6400 \
frankwhzhang commented 3 years ago

https://github.com/PaddlePaddle/models/pull/4531 原始处理可以参考这个pr

w5688414 commented 3 years ago

不是很明白,请问reader.py对应哪个文件

frankwhzhang commented 3 years ago

PaddleRec/multi-task/ESMM/reader.py 这个pr中的

jxlijunhao commented 2 years ago

@frankwhzhang 上述PR似乎 只保留 feature_filed: feature_id, 而具体特征的取值去除了

Helafeng commented 2 years ago

@frankwhzhang 上述PR似乎 只保留 feature_filed: feature_id, 而具体特征的取值去除了

同疑问