Closed focox closed 6 years ago
@focox 你好,ner任务其实就是找实体的边界并判断实体的类型,也就是说为每个字符(英文是单词)打标签,那么这里的label就是指表示单词边界的特定标记,一般使用BIESO(即begin,in,end,single,other)表示当前字符是实体的开始、中间、结束、单字符构成实体或者非实体; 特征就是指为了判断当前字符的标记(BIESO)而提供的特征。例如:词性特征,若当前字符是名词,上次一词是介词,那么当期位置被标记为实体开始(B)的可能性就大,类似于这样的特征
明白了,太感谢了。然后这些标签全部要人为打上去吗,还是说有什么工具可以实现,或者部分实现?
@focox 人工标注的语料一般质量会很高,但是时间和人工成本会很大,可以先标注小部分的语料,然后使用半监督学习的方法;或者利用远程监督的方式生成弱标注语料,即用现有的实体字典映射到文本中自动产生训练语料。具体地可以找找相关论文。
谢谢,非常感谢。
训练数据,每行共n列,1至n-1列为特征,最后一列为label;怎么理解这里的特征与label呢?特征->属性,label->?