Open mchenwang opened 4 years ago
截断是不是应该把后面pad_size个词再作为新的数据加到contents中?
感觉就是直接截断了,超过长度的数据不要了。我是这么理解的,像textCNN只能接受固定长度的文本分类,基于RNN的虽然可以接受不固定长度的,但是因为要批量训练,所以需要长度同一。
感觉就是直接截断了,超过长度的数据不要了。我是这么理解的,像textCNN只能接受固定长度的文本分类,基于RNN的虽然可以接受不固定长度的,但是因为要批量训练,所以需要长度同一。
在这个数据集里,每个句子的长度在30以下,所以pan_size设置成32是没有问题的,但是如果句子长度是100甚至更多的话,只截取32个,是肯定不对的,截断后面的字数不够就用PAD补全,或者剩余字数过少可以舍去。
如果文本长度超过pad_szie,这里token=token[:pad_size],那pan_size之后的文本是不是没用上,对这里不是很懂