使用paddlehub的lac和单纯安装lac 跑出结果不一致。

baidu / lac

百度NLP：分词，词性标注，命名实体识别，词重要性

Apache License 2.0

3.86k stars 597 forks source link

使用paddlehub的lac和单纯安装lac 跑出结果不一致。 #52

Open zhangzhen8230 opened 4 years ago

zhangzhen8230 commented 4 years ago

单独安装lac跑出结果
paddlehub跑出结果

paddlehub跑出来的效果要优于单独lac的效果，请问是什么原因？

Bond-H commented 4 years ago

两者的模型还未及时进行同步，paddlehub中模型更新可能会出现稍慢于此repo更新的情况。关于效果问题，从我们评测的效果上看，此次repo更新的模型整体效果是要优于此前发布的模型的，不过可能会出现部分数据模型效果有偏的问题，感谢反馈，我们会跟进此类case的优化。

lmxhappy commented 4 years ago

请问，跟paddlepaddle-https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis 有什么不同呢？谢谢

Bond-H commented 4 years ago

paddlehub跑出来的效果要优于单独lac的效果，请问是什么原因？

这个问题其实是因为标准的修正导致的。对于表示时间节点的时间，比如，“昨天”、“2001年”等词我们才标注为“TIME” 而表示时间长短，“12分钟”、“15秒”这种时间量词，我们现在会标注为“m”，这个跟长度“1米”、重量“1kg”等计量是一致的。经过相关分析我们还是决定维持现在这个版本的标准，可能对于现有一些业务会有所影响，不过从逻辑性，通用性而言这个标准是相对合理的。对于旧版的，替换相应的模型文件同样可以使用我们当前的接口进行模型调用的

Bond-H commented 4 years ago

请问，跟paddlepaddle-https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis 有什么不同呢？谢谢

PaddleNLP是原始模型的训练代码，适合进行相关学术和模型研究，当前仓库为模型便捷调用的工具包，对模型进行过一定的优化，跟PaddleNLP的模型会有一定diff，但评估效果上看均有所改善