tokenizer选取 - Githubissues

longlongman / CasRel-pytorch-reimplement

Pytorch reimplement of the paper "A Novel Cascade Binary Tagging Framework for Relational Triple Extraction" ACL2020. The original code is written in keras.

197 stars 52 forks source link

tokenizer选取 #13

Open seokjin954 opened 3 years ago

seokjin954 commented 3 years ago

您好，我看您选择的keras_bert的tokenizer，但是我发现分词之后会有在分好的词前面有##,这样会产生些许差异导致在tokens里找不到sub的token组成的列表，进而无法标记。您是怎么处理的呢

longlongman commented 3 years ago

你可以尝试把这些##去掉，我当时是为了和原始代码结果保持一致所以保留了，不过我记得保留和去掉结果相差不大

seokjin954 commented 3 years ago

好的，收到。谢谢您的回复，我也是按您说的去掉了##，已经解决了。谢谢您

---原始邮件--- 发件人: @.> 发送时间: 2021年5月24日(周一) 晚上9:57 收件人: @.>; 抄送: @.**@.>; 主题: Re: [longlongman/CasRel-pytorch-reimplement] tokenizer选取 (#13)

你可以尝试把这些##去掉，我当时是为了和原始代码结果保持一致所以保留了，不过我记得保留和去掉结果相差不大

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

shihanmax commented 3 years ago

作者你好，看到代码中实现时选的是keras_bert的tokenizer，我理解是为了替换一些特殊token到unused tokens，不知道是否正确，另外，我是否可以使用AutoTokenizer来替换代码中的HBTokenizer呢？

谢谢