PaddlePaddle / models

Officially maintained, supported by PaddlePaddle, including CV, NLP, Speech, Rec, TS, big models and so on.
Apache License 2.0
6.91k stars 2.91k forks source link

医学文本分词预处理 #3099

Closed lixiangchun closed 5 years ago

lixiangchun commented 5 years ago

非常感谢百度能够提供这么多实用、好用的深度学习模型,现有个问题咨询一下。

我想通过PaddleNLP/preprocess下提供的分词预处理脚本tokenizer.py对医学文本进行分词,使用过程中发现该脚本依赖于预训练模型--model_path--word_dict_path--label_dict_path--word_rep_dict_path等参数。

我想针对特定的医学文本数据生成上述四个参数所需要的文件,但不知从何下手。望各位给予帮助和解答,非常感谢。

Halfish commented 5 years ago

tokenizer.py 中的分词就是 lexical_analysis 的项目,可以参考 https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis