gaussic / text-classification-cnn-rnn

CNN-RNN中文文本分类,基于TensorFlow
MIT License
4.16k stars 1.47k forks source link

关于Padding部分问题 #116

Closed liang8qi closed 5 years ago

liang8qi commented 5 years ago

你好,我注意到你是使用kr.preprocessing.sequence.pad_sequences(data_id, max_length)这个函数对sequence进行预处理,如果sequence的长度小于max_length,这个函数默认是在sequence的前面补0.,如果sequence的长度大于max_length,默认是将从sequence的前面开始截断,这种处理方式,在主题分类问题中,不会导致文本的前面有利于分类的信息丢失吗?为什么不在sequence的后面padding,从后面开始截断?这样做有什么用意吗?谢谢

gaussic commented 5 years ago

其实都可以,我只是使用了默认的PADDING方式,这个REPO的结果也不能作为baseline。

liang8qi commented 5 years ago

好的,感谢