renmada / t5-pegasus-pytorch

401 stars 61 forks source link

似乎这是一个 uncased 模型,对英文大写和空格等 token 进行了处理,对于中文来说 cased version 是否更合适? #60

Open qiguanqiang opened 1 year ago

qiguanqiang commented 1 year ago

我是一个正在学习生成式模型的小白,请大佬不吝赐教

renmada commented 1 year ago

中文的类bert tokenizer 都是uncased。 个人觉得英文是关注cased的情况比较多