memray / seq2seq-keyphrase

MIT License
318 stars 109 forks source link

关于训练时数据集的使用 #30

Closed RandomTuringDuck closed 5 years ago

RandomTuringDuck commented 5 years ago

请问,在您的论文中有使用除了kp20k以外的其他四个数据集(nus等)进行实验。我想知道的是,在copyRNN的训练过程中您是否使用了其他四个数据集?还是仅仅使用kp20k进行了copyRNN的训练,在测试时使用了全部五个数据集?望回答,非常感谢

RandomTuringDuck commented 5 years ago

另外,在您提供的testing-data中,有些数据集的text是包含abstract和introduction等几部分,是否在训练和测试时只使用abstract呢?

memray commented 5 years ago

训练的时候只用了kp20k,仅仅在test的时候用了另外四个。 第二个问题是,都只用了abstract。fulltext太长gpu会OOM。

shizhediao commented 5 years ago

请问,在您论文里section4.2提到的: the remaining papers are used to train the supervised baselines. 怎么理解?是其余四个小数据集也划分出来了train和test来训练KEA和Maui吗? 为什么不用kp20k training data 去训练?是memory limit?