关于训练时数据集的使用

memray / seq2seq-keyphrase

MIT License

318 stars 109 forks source link

关于训练时数据集的使用 #30

Closed RandomTuringDuck closed 5 years ago

RandomTuringDuck commented 5 years ago

请问，在您的论文中有使用除了kp20k以外的其他四个数据集(nus等)进行实验。我想知道的是，在copyRNN的训练过程中您是否使用了其他四个数据集？还是仅仅使用kp20k进行了copyRNN的训练，在测试时使用了全部五个数据集？望回答，非常感谢

RandomTuringDuck commented 5 years ago

另外，在您提供的testing-data中，有些数据集的text是包含abstract和introduction等几部分，是否在训练和测试时只使用abstract呢？

memray commented 5 years ago

训练的时候只用了kp20k，仅仅在test的时候用了另外四个。第二个问题是，都只用了abstract。fulltext太长gpu会OOM。

shizhediao commented 5 years ago

请问，在您论文里section4.2提到的： the remaining papers are used to train the supervised baselines. 怎么理解？是其余四个小数据集也划分出来了train和test来训练KEA和Maui吗？为什么不用kp20k training data 去训练？是memory limit？