liu-nlper / NER-LSTM-CRF

An easy-to-use named entity recognition (NER) toolkit, implemented the Bi-LSTM+CRF model in tensorflow.
347 stars 117 forks source link

您好,请教一个训练数据的问题 #12

Closed focox closed 6 years ago

focox commented 6 years ago

训练数据,每行共n列,1至n-1列为特征,最后一列为label;怎么理解这里的特征与label呢?特征->属性,label->?

liu-nlper commented 6 years ago

@focox 你好,ner任务其实就是找实体的边界并判断实体的类型,也就是说为每个字符(英文是单词)打标签,那么这里的label就是指表示单词边界的特定标记,一般使用BIESO(即begin,in,end,single,other)表示当前字符是实体的开始、中间、结束、单字符构成实体或者非实体; 特征就是指为了判断当前字符的标记(BIESO)而提供的特征。例如:词性特征,若当前字符是名词,上次一词是介词,那么当期位置被标记为实体开始(B)的可能性就大,类似于这样的特征

focox commented 6 years ago

明白了,太感谢了。然后这些标签全部要人为打上去吗,还是说有什么工具可以实现,或者部分实现?

liu-nlper commented 6 years ago

@focox 人工标注的语料一般质量会很高,但是时间和人工成本会很大,可以先标注小部分的语料,然后使用半监督学习的方法;或者利用远程监督的方式生成弱标注语料,即用现有的实体字典映射到文本中自动产生训练语料。具体地可以找找相关论文。

focox commented 6 years ago

谢谢,非常感谢。