Open khazic opened 1 year ago
在predict过程中,pred label转成token时,有个bug。 最新代码已经修复这个问题了。
博主还有个问题想请教一下 就是我用的英文的数据 模型是bert-base-uncased 然后output出来的数据 很多都是把一个单词拆分了的 比如ausa 他就会只写usa,这种怎么改呢?
[UNK] [UNK] fish boston massachusetts usa . [('CIT', 'o s t o', [4]), ('COU', 's', [6])] [('CIT', 'o s t o', [4]), ('COU', 's', [6])]
像这一条 他会把波士顿跟美国拆成字母的形式 这个应该是在分词的时候的问题 这个有什么办法限制掉吗?
解决了博主 感谢你的指导 祝你生活愉快
🤝🤝
博主 我看了一下好像还是不行 我看你写的那个tokenizer是中文的 是berttokenizer 我改成了英文的autotokenizer后 跑了几个epoch 质量很低 还有哪里需要改吗?
博主 就是我用了你的代码跟数据去跑的bert-crf 然后出现的情况就是padding全部变成了某一个label了,输出到了output,我看上面有人说遇到同样的情况,他说改成torchcrf就行,我想问问这部分代码怎么改呀 我看你改过这部分 是注释了的 我换成你写的那部分了 运行不了 能解决一下吗