jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.8k stars 453 forks source link

Lattice的结构如何避免诸如“市长”一类的错误分词结果 #106

Closed liutongyang closed 4 years ago

liutongyang commented 4 years ago

巨佬您好... 我从去年 follow 您的这篇工作,一直跟到 NAACL19 的 Lattice 分词器,一直在学习您出色的数学理论和优秀的代码功底,一直超崇拜你!但是,一直有一个问题困扰着我,像“南京市长江大桥”这个例子中,“市长” 这个词也会跟随 “长” 字进入 Lattice-LSTM 中去训练,Lattice-LSTM 是如何去处理诸如这样的错误信息呢?另外,论文中与每一个 Xc 做匹配的 lexicon 就是预训练好的词向量吗?恳请巨佬能够不吝赐教!

jiesutd commented 4 years ago

你好,

  1. Lattice 提供了更多的信息,也伴随着噪音,这就是为什么我们对每个匹配的词路径都设置一个gate, 就是用来吸收重要的匹配次弱化噪音词。这些都是全自动的,不需要人工介入的。

  2. 是的,就是用词向量的词表匹配的

liutongyang commented 4 years ago

您能耐心的回答我的问题使我非常感动,如果您不介意的话,恳求能够指明在代码里弱化噪音的gate是在哪里实现的。多谢!