baidu / lac

百度NLP:分词,词性标注,命名实体识别,词重要性
Apache License 2.0
3.89k stars 595 forks source link

分词模块seg与lac模式的区别 #120

Open huanli2012 opened 4 years ago

huanli2012 commented 4 years ago

老师好,请问seg_model与lac_model都是BiGRU吗,我在LAC/nets.py中看到只有一个net,那么这两个模型的区别是训练数据不同吗?#57

moberq commented 4 years ago

老师好,请问seg_model与lac_model都是BiGRU吗,我在LAC/nets.py中看到只有一个net,那么这两个模型的区别是训练数据不同吗?#57

两个模型的网络结构相同,但某些超参数不同(比如hidden_size);两个模型的训练数据来源相同,但是标注体系不同,lac_model是在seg_model的基础上进行了细分。

模型训练可参考:https://github.com/PaddlePaddle/models/tree/release/1.8/PaddleNLP/lexical_analysis

huanli2012 commented 4 years ago

嗯嗯,我看到lac_model使用的训练集是包含所有词性标注的。在分词任务上,lac_model与seg_model所用训练集中的分词标注结果是相同的吧?谢谢老师解答。

moberq commented 4 years ago

嗯嗯,我看到lac_model使用的训练集是包含所有词性标注的。在分词任务上,lac_model与seg_model所用训练集中的分词标注结果是相同的吧?谢谢老师解答。

嗯,相同的。seg_model只取了切词结果,并不包含词性。