jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.79k stars 457 forks source link

对您本篇中的疑惑 #25

Closed qingyue2014 closed 6 years ago

qingyue2014 commented 6 years ago

你好,读了你的论文,感觉很棒,刚入坑的小白一枚,有几个地方想请教一下。

  1. 论文中提到没有使用分词,但word-embedding难道不是分词后训练得到的吗?如果没有用分词,那么word-embedding是怎么得到的呢?
  2. 如果使用了分词,那么一种分词方法对于“南京市长江大桥”只能得到一种分词结果,为什么在论文的模型中,会出现“大桥”“长江大桥”这些输入到“桥”的cell中呢? 希望得到您的回复,非常感谢。
jiesutd commented 6 years ago

你好,

  1. 我们的word embedding 是用一个分词器在大规模 raw data上(gigaword)上切分的,然后用word2vec训练得到的。注意,我们并没有对当前NER语料做分词。这种word embedding 也可以直接从外面别人训练好的拿过来直接用。
  2. 这种跨接的链接是通过与word embedding中的词的匹配得来的,而不是分词得来的。比如word embeddings 中存在“长江大桥”,“大桥”这些词,那么就会有对应的跨接的链接存在。因此在一个字上会存在多个跨接的链接的。
qingyue2014 commented 6 years ago

word-embedding是通过其他大型语料训练得到的,在实际模型训练中,主要是为了拿来与训练文本中的字匹配,从而建立每个字的对应链接,得以利用每个字潜在词信息来帮助识别命名实体,我这么理解对吗?

jiesutd commented 6 years ago

大约可以这么理解,不过是词匹配

qingyue2014 commented 6 years ago

我明白了,非常感谢!