Closed chilynn closed 7 years ago
你好,
抱歉,我对于LTP的NER测试还存在一定的疑惑。 1、它是用人民日报切分好的分词和词性做预测么?如果这样的话,在真实的NER场景中,文本通常都是没有经过分词的,如果此时再调用分词和词性标注模型,准召回会与公开的结果有一定的出入。 2、还是用LTP已经训练好的分词模型和词性标注模型,对测试句子进行预处理,然后再进行NER?这样的话人民日报语料的词性标注方式与LTP的863词性标注方式不一致,这个问题怎么解决? 3、还是说用1月的语料训练一个分词模型和词性标注模型,然后进行后续的工作?
@chilynn
你好,请问: 1、你的sequence-labeling-by-nn中的WE(word embedding)是基于人民日报已经切分好的结果做的么,还是基于别的分词模型。 2、关于“命名实体识别baseline(使用LTP)”中199801人民日报的统计结果pku-train有34,426行,可是我从官网下载的一共有23,065,有效行数为19484。 3、在ltp的官网 (http://ltp.readthedocs.io/zh_CN/latest/theory.html) 提到“与分词模块相同,我们将命名实体识别建模为基于词的序列标注问题”,ltp的序列标注问题是基于人民日报已经切分好的结果,还是用自己分词模型,ltp的命名体识别是主要基于什么模型呢?