Open ROAD2018 opened 1 year ago
CONTROLLABLE TIME-DELAY TRANSFORMER FOR REAL-TIME PUNCTUATION PREDICTION AND DISFLUENCY DETECTION 提出联合建模标点预测和 disfluency detection,请问代码里面哪里有disfluency detection的部分?
请问这个教程是基于哪个分支的?
请问 conf/train_punc.yaml 这个里面的内容是什么? 为什么按照你的步骤会报这个错呀? @ROAD2018
Error while finding module specification for 'funasr.export.export_model' (ModuleNotFoundError: No module named 'funasr.export')
tokens.txt是怎么得到的呀?
注意,本教程是完全基于FunASR进行标点模型微调与onnx模型导出,不涉及modelscope。
1. 标点模型训练
标点模型训练与微调借鉴 FunASR/egs/aishell2这个例子进行,具体如下:
1) 下载标点预训练模型文件夹 punc_ct-transformer_zh-cn-common-vocab272727-pytorch 到本地 FunASR/egs/aishell2 目录下。
2)FunASR/egs/aishell2 目录下新建 tokenize_text.py 文件用于进行文本和标点处理,主要是根据预训练模型punc_ct-transformer_zh-cn-common-vocab272727-pytorch 文件夹中的 punc.yaml 配置文件对输入文本进行文字和标点提取。可以应用 WeTextProcessing 工具包进行文本正则化,也可以利用FunASR自带的正则化脚本进行处理。
tokenize_text.py 脚本如下:
待处理文本是领域相关的带标点的文本数据,处理前后的文本和标点如下:
3)基于run.sh修改得到finetune.sh脚本。
4)修改 ../../../funasr/datasets/preprocessor.py文件以适配训练所需的文本和标点处理方式。
修改preprocessor.py 文件中的 PuncTrainTokenizerCommonPreprocessor 类,如下:
2. 标点模型onnx导出
由于仓库已经写好标点模型的导出方式,暂不需要额外脚本实现模型导出,只需官方命令即可:
python -m funasr.export.export_model --model-name punc_model_dir --export-dir ./export --type torch --quantize false