fseasy / sequence-labeling-by-nn

sequence labeling by neural network
17 stars 5 forks source link

关于命名实体识别 #11

Closed chilynn closed 7 years ago

chilynn commented 7 years ago

你好,请问: 1、你的sequence-labeling-by-nn中的WE(word embedding)是基于人民日报已经切分好的结果做的么,还是基于别的分词模型。 2、关于“命名实体识别baseline(使用LTP)”中199801人民日报的统计结果pku-train有34,426行,可是我从官网下载的一共有23,065,有效行数为19484。 3、在ltp的官网 (http://ltp.readthedocs.io/zh_CN/latest/theory.html) 提到“与分词模块相同,我们将命名实体识别建模为基于词的序列标注问题”,ltp的序列标注问题是基于人民日报已经切分好的结果,还是用自己分词模型,ltp的命名体识别是主要基于什么模型呢?

fseasy commented 7 years ago

你好,

  1. 是基于SogouCS, SogouCA新闻语料,拿出标题和内容,然后用LTP分词,再用Word2vec训练的;其中 skip-gram 方式效果更好。
  2. “官网”是指Backoff评测的PKU数据吗,我用的是LTP训练所使用的数据,二者具体有哪些不同我也不是非常清楚。不过具体数据对于模型来说应该是不影响的,因为当初是抱着NN化LTP的目的,所以没有使用评测的标准数据。
  3. 是基于人民日报已经切分好的结果,包含分词和词性标注的信息。命名实体识别也是基于序列标注的,具体使用的是结构化感知器,pa(passive aggressive?)或者ap(平均感知器)算法。
chilynn commented 7 years ago

抱歉,我对于LTP的NER测试还存在一定的疑惑。 1、它是用人民日报切分好的分词和词性做预测么?如果这样的话,在真实的NER场景中,文本通常都是没有经过分词的,如果此时再调用分词和词性标注模型,准召回会与公开的结果有一定的出入。 2、还是用LTP已经训练好的分词模型和词性标注模型,对测试句子进行预处理,然后再进行NER?这样的话人民日报语料的词性标注方式与LTP的863词性标注方式不一致,这个问题怎么解决? 3、还是说用1月的语料训练一个分词模型和词性标注模型,然后进行后续的工作?

Oneplus commented 7 years ago

@chilynn

  1. ltp训练测试时是用gold切分和gold pos。但考虑人日分词f值近97,pos的准确率接近98,auto pos和gold pos的影响差别不大。
  2. 切词误差对ner的影响这个我没有太直接的经验(没做过ner的研究),但如果要把切词考虑进去其实也可以照常用f值评价ner,由分词引起的实体边界识别错误可以同ner引起的实体边界错误等同处理。
  3. 对于非人日这种大规模数据,这个问题还是值得研究一下。