T5 tokenize过程貌似有bug？

IDEA-CCNL / Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

Apache License 2.0

4.02k stars 376 forks source link

方便贴出你使用的例子代码吗？

我这边用以下代码 max_length, padding 测试应该是正常的。

>>> T5Tokenizer.from_pretrained("IDEA-CCNL/Randeng-T5-784M-QA-Chinese")
>>> tokenizer.encode("阅读者",max_length=100, padding='max_length')
[11622, 1290, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

IDEA-CCNL / Fengshenbang-LM

T5 tokenize过程貌似有bug？ #374