wzzzd / lm_ner

基于Pytorch的命名实体识别框架,支持LSTM+CRF、Bert+CRF、RoBerta+CRF等框架
75 stars 18 forks source link

博主 看一下吧 #20

Open khazic opened 1 year ago

khazic commented 1 year ago

博主 就是我用了你的代码跟数据去跑的bert-crf 然后出现的情况就是padding全部变成了某一个label了,输出到了output,我看上面有人说遇到同样的情况,他说改成torchcrf就行,我想问问这部分代码怎么改呀 我看你改过这部分 是注释了的 我换成你写的那部分了 运行不了 能解决一下吗

wzzzd commented 1 year ago

在predict过程中,pred label转成token时,有个bug。 最新代码已经修复这个问题了。

khazic commented 1 year ago

博主还有个问题想请教一下 就是我用的英文的数据 模型是bert-base-uncased 然后output出来的数据 很多都是把一个单词拆分了的 比如ausa 他就会只写usa,这种怎么改呢?

khazic commented 1 year ago

[UNK] [UNK] fish boston massachusetts usa . [('CIT', 'o s t o', [4]), ('COU', 's', [6])] [('CIT', 'o s t o', [4]), ('COU', 's', [6])]

像这一条 他会把波士顿跟美国拆成字母的形式 这个应该是在分词的时候的问题 这个有什么办法限制掉吗?

khazic commented 1 year ago

解决了博主 感谢你的指导 祝你生活愉快

wzzzd commented 1 year ago

🤝🤝

khazic commented 1 year ago

博主 我看了一下好像还是不行 我看你写的那个tokenizer是中文的 是berttokenizer 我改成了英文的autotokenizer后 跑了几个epoch 质量很低 还有哪里需要改吗?