Closed lixiangchun closed 5 years ago
非常感谢百度能够提供这么多实用、好用的深度学习模型,现有个问题咨询一下。
我想通过PaddleNLP/preprocess下提供的分词预处理脚本tokenizer.py对医学文本进行分词,使用过程中发现该脚本依赖于预训练模型--model_path、--word_dict_path、--label_dict_path和--word_rep_dict_path等参数。
PaddleNLP/preprocess
tokenizer.py
--model_path
--word_dict_path
--label_dict_path
--word_rep_dict_path
我想针对特定的医学文本数据生成上述四个参数所需要的文件,但不知从何下手。望各位给予帮助和解答,非常感谢。
tokenizer.py 中的分词就是 lexical_analysis 的项目,可以参考 https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis
非常感谢百度能够提供这么多实用、好用的深度学习模型,现有个问题咨询一下。
我想通过
PaddleNLP/preprocess
下提供的分词预处理脚本tokenizer.py
对医学文本进行分词,使用过程中发现该脚本依赖于预训练模型--model_path
、--word_dict_path
、--label_dict_path
和--word_rep_dict_path
等参数。我想针对特定的医学文本数据生成上述四个参数所需要的文件,但不知从何下手。望各位给予帮助和解答,非常感谢。