jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.8k stars 453 forks source link

有关分词问题 #101

Closed TianlinZhang668 closed 5 years ago

TianlinZhang668 commented 5 years ago

您好,我想问一下,你的训练集是要被分词么,我看函数里面有word,biword,我不知道哪里用到,是训练集本身里面就分好了么。谢谢您

jiesutd commented 5 years ago

没有分词, 变量名中的word/biword 实际上指的是char/bichar。 这是我以前代码改过来时没有来的及修改变量名。

TianlinZhang668 commented 5 years ago

谢谢学长,那char 和gaz代表什么含义呢 word_alphabet, biword_alphabet, char_alphabet, gaz_alphabet, label_alphabet,

jiesutd commented 5 years ago

char相关的可能没用上,你自己看看code 确认下。gaz 就是gazetteer

TianlinZhang668 commented 4 years ago

学长,那按照你的意思,如果没有分词的话 南京市长江大桥 这句话,就会南京 京市 市长 长江 江大 这样分开么,这样每一个字都有一个词对应,但是像长江大桥这样的词不就不能出现了么

jiesutd commented 4 years ago

有lexicon 匹配,你仔细看看论文。