博主看一下吧 - Githubissues

wzzzd / lm_ner

基于Pytorch的命名实体识别框架，支持LSTM+CRF、Bert+CRF、RoBerta+CRF等框架

75 stars 18 forks source link

Open khazic opened 1 year ago

khazic commented 1 year ago

博主就是我用了你的代码跟数据去跑的bert-crf 然后出现的情况就是padding全部变成了某一个label了，输出到了output,我看上面有人说遇到同样的情况，他说改成torchcrf就行，我想问问这部分代码怎么改呀我看你改过这部分是注释了的我换成你写的那部分了运行不了能解决一下吗

wzzzd commented 1 year ago

在predict过程中，pred label转成token时，有个bug。最新代码已经修复这个问题了。

khazic commented 1 year ago

博主还有个问题想请教一下就是我用的英文的数据模型是bert-base-uncased 然后output出来的数据很多都是把一个单词拆分了的比如ausa 他就会只写usa，这种怎么改呢？

khazic commented 1 year ago

[UNK] [UNK] fish boston massachusetts usa . [('CIT', 'o s t o', [4]), ('COU', 's', [6])] [('CIT', 'o s t o', [4]), ('COU', 's', [6])]

像这一条他会把波士顿跟美国拆成字母的形式这个应该是在分词的时候的问题这个有什么办法限制掉吗？

khazic commented 1 year ago

解决了博主感谢你的指导祝你生活愉快

wzzzd commented 1 year ago

🤝🤝

khazic commented 1 year ago

博主我看了一下好像还是不行我看你写的那个tokenizer是中文的是berttokenizer 我改成了英文的autotokenizer后跑了几个epoch 质量很低还有哪里需要改吗？