PaddlePaddle / models

Officially maintained, supported by PaddlePaddle, including CV, NLP, Speech, Rec, TS, big models and so on.
Apache License 2.0
6.91k stars 2.91k forks source link

LAC模型利用paddleHub加载后,可否使用paddlehub集成的MsraNER数据集训练? #4147

Open sataliulan opened 4 years ago

sataliulan commented 4 years ago

如题,利用以下三行代码可以实现预测 import paddlehub as hub lac=hub.Module(name='lac') results=lac.lexical_analysis(data=inputs) 但若我想基于另一个数据集(hub.dataset.MsraNER())将LAC训练后再使用,该怎么做? #

XingWu01 commented 4 years ago

@ZeyuChen

XingWu01 commented 4 years ago

请优先参考PaddleHub文档

sataliulan commented 4 years ago

PaddleHub文档中给出的demo是如何利用PaddleHub预训练lac模型做预测,而我想知道的是如何基于新数据集在PaddleHub中训练lac模型

Steffy-zxf commented 4 years ago

感谢反馈!现PaddleHub不支持重头训练模型。如果你想要重头训练一版,可以试试按照models下LAC的预训练说明,将数据集换成你想要的预训练数据集,重头训练。

如果你想要做序列标注任务的话,可以参考下PaddleHub ERNIE系列模型完成序列标注Fine-tune。https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.4/demo/sequence_labeling

sataliulan commented 4 years ago

额,paddlehub lac不是从原来的paddlepaddle迁移过来的么?原来在paddle1.2版本之前的都是可以的后来就不行了,而且paddle1.2之前的版本也没法安装了

sataliulan commented 4 years ago

ERNIE模型太大,训练后模型预测13句话耗时超过1s不能满足要求

Steffy-zxf commented 4 years ago

PaddleHub LAC 采用的网络结构以及预训练模型参数是paddle/models保持一致的。

“原来在paddle1.2版本之前的都是可以的后来就不行了,而且paddle1.2之前的版本也没法安装了” 没法安装什么,现在的问题是什么?

sataliulan commented 4 years ago

在paddle1.6平台下不使用paddlehub 如何再训练LAC,训练完成后使用模型预测的方式又是什么?我参考了原来的链接https://github.com/baidu/lac/tree/for_paddle_v1.1 发现新老版本相差很大;不知道在paddle1.6平台下该怎么做,就是想基于目前的训练集将lac重新训练一次

sataliulan commented 4 years ago

另:训练lac对训练集的标注格式有要求么?一定要CRF++格式标注么?

Bond-H commented 4 years ago

paddle1.6 训练LAC可参照这个链接进行训练,训练集的标注格式我们有进行说明,同时也给了训练集测试集的样例,切换数据标签,还需修改conf/tag.dic文件,修改run.sh文件的路径配置,执行sh run.sh train即可 https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis

sataliulan commented 4 years ago

ok我试下

Bond-SYSU notifications@github.com 于2020年1月17日周五 下午12:01写道:

paddle1.6 训练LAC可参照这个链接进行训练,训练集的标注格式我们有进行说明,同时也给了训练集测试集的样例,切换数据标签,还需修改conf/tag.dic文件,修改run.sh文件的路径配置,执行sh run.sh train即可

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/PaddlePaddle/models/issues/4147?email_source=notifications&email_token=ABTUVHTTUVXGSDTHBJLZM5LQ6EUSPA5CNFSM4KBMGJX2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEJGL23I#issuecomment-575454573, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABTUVHUGMFPULKETYUAF3PDQ6EUSPANCNFSM4KBMGJXQ .