IDEA-CCNL / Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。
Apache License 2.0
4.02k stars 376 forks source link

T5 tokenize过程貌似有bug? #374

Open Fu-Dayuan opened 1 year ago

Fu-Dayuan commented 1 year ago

如果tokenize “阅读者”,在结果中没有pad token(290)(仅有阅读、者、结束符三个token).我在其他的例子中都没有发现这个bug

Desein-Yang commented 1 year ago

方便贴出你使用的例子代码吗?

我这边用以下代码 max_length, padding 测试应该是正常的。

>>> T5Tokenizer.from_pretrained("IDEA-CCNL/Randeng-T5-784M-QA-Chinese")
>>> tokenizer.encode("阅读者",max_length=100, padding='max_length')
[11622, 1290, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]