baidu / lac

百度NLP:分词,词性标注,命名实体识别,词重要性
Apache License 2.0
3.86k stars 597 forks source link

使用paddlehub的lac和单纯安装lac 跑出结果不一致。 #52

Open zhangzhen8230 opened 4 years ago

zhangzhen8230 commented 4 years ago
  1. 单独安装lac跑出结果 图片
  2. paddlehub跑出结果 图片

paddlehub跑出来的效果要优于单独lac的效果, 请问是什么原因?

Bond-H commented 4 years ago

两者的模型还未及时进行同步,paddlehub中模型更新可能会出现稍慢于此repo更新的情况。 关于效果问题,从我们评测的效果上看,此次repo更新的模型整体效果是要优于此前发布的模型的,不过可能会出现部分数据模型效果有偏的问题,感谢反馈,我们会跟进此类case的优化。

lmxhappy commented 4 years ago

请问,跟paddlepaddle-https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis 有什么不同呢?谢谢

Bond-H commented 4 years ago

paddlehub跑出来的效果要优于单独lac的效果, 请问是什么原因?

这个问题其实是因为标准的修正导致的。 对于表示时间节点的时间,比如,“昨天”、“2001年”等词我们才标注为“TIME” 而表示时间长短,“12分钟”、“15秒”这种时间量词,我们现在会标注为“m”,这个跟长度“1米”、重量“1kg”等计量是一致的。 经过相关分析我们还是决定维持现在这个版本的标准,可能对于现有一些业务会有所影响,不过从逻辑性,通用性而言这个标准是相对合理的。对于旧版的,替换相应的模型文件同样可以使用我们当前的接口进行模型调用的

Bond-H commented 4 years ago

请问,跟paddlepaddle-https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis 有什么不同呢?谢谢

PaddleNLP是原始模型的训练代码,适合进行相关学术和模型研究,当前仓库为模型便捷调用的工具包,对模型进行过一定的优化,跟PaddleNLP的模型会有一定diff,但评估效果上看均有所改善