Closed liang8qi closed 5 years ago
你好,我注意到你是使用kr.preprocessing.sequence.pad_sequences(data_id, max_length)这个函数对sequence进行预处理,如果sequence的长度小于max_length,这个函数默认是在sequence的前面补0.,如果sequence的长度大于max_length,默认是将从sequence的前面开始截断,这种处理方式,在主题分类问题中,不会导致文本的前面有利于分类的信息丢失吗?为什么不在sequence的后面padding,从后面开始截断?这样做有什么用意吗?谢谢
其实都可以,我只是使用了默认的PADDING方式,这个REPO的结果也不能作为baseline。
好的,感谢
你好,我注意到你是使用kr.preprocessing.sequence.pad_sequences(data_id, max_length)这个函数对sequence进行预处理,如果sequence的长度小于max_length,这个函数默认是在sequence的前面补0.,如果sequence的长度大于max_length,默认是将从sequence的前面开始截断,这种处理方式,在主题分类问题中,不会导致文本的前面有利于分类的信息丢失吗?为什么不在sequence的后面padding,从后面开始截断?这样做有什么用意吗?谢谢