Open L0ngxhn opened 3 years ago
大佬你好,我发现pro_data.py代码上有个小逻辑没有处理。但是不确定会不会最终影响实验结果。 https://github.com/ShomyLiu/Neu-Review-Rec/blob/a119c1eac1520508a97eb9cd612dd946d4efd2d5/pro_data/data_pro.py#L256
将224行划分成train:test = 2:8,可大概率复现该现象。
master和pl都可能存在该问题
大佬你好,我发现pro_data.py代码上有个小逻辑没有处理。但是不确定会不会最终影响实验结果。 https://github.com/ShomyLiu/Neu-Review-Rec/blob/a119c1eac1520508a97eb9cd612dd946d4efd2d5/pro_data/data_pro.py#L256
247行 和 253行可能导致 train数据集中重复添加相同记录,从而导致数据集处理前后总数不一致问题。
将224行划分成train:test = 2:8,可大概率复现该现象。
解决方法:移除247和253行代码,并在255行后添加data_train = pd.concat([data_train, data_test.loc[all_index]])