ShomyLiu / Neu-Review-Rec

A Toolkit for Neural Review-based Recommendation models with Pytorch.
http://shomy.top/2019/12/31/neu-review-rec/
169 stars 54 forks source link

关于数据预处理的问题 #27

Open L0ngxhn opened 3 years ago

L0ngxhn commented 3 years ago

大佬你好,我发现pro_data.py代码上有个小逻辑没有处理。但是不确定会不会最终影响实验结果。 https://github.com/ShomyLiu/Neu-Review-Rec/blob/a119c1eac1520508a97eb9cd612dd946d4efd2d5/pro_data/data_pro.py#L256

247行 和 253行可能导致 train数据集中重复添加相同记录,从而导致数据集处理前后总数不一致问题。

将224行划分成train:test = 2:8,可大概率复现该现象。

解决方法:移除247和253行代码,并在255行后添加data_train = pd.concat([data_train, data_test.loc[all_index]])

L0ngxhn commented 3 years ago

master和pl都可能存在该问题

该死的排版。。。忘了提交前先Preview一下了。