我想问下这个语言模型lm/zh_giga.no_cna_cmn.prune01244.klm在训练的时候是不使用的吗？

yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Apache License 2.0

807 stars 128 forks source link

我想问下这个语言模型lm/zh_giga.no_cna_cmn.prune01244.klm在训练的时候是不使用的吗？ #124

Closed wxy0505 closed 1 year ago

yeyupiaoling commented 1 year ago

这个语言模型是在预测解码的使用使用的，不是作为预训练模型的。

wxy0505 commented 1 year ago

我在训练完模型后导出的图的cer跟评估的cer不一样，我要如何拿到我评估的cer这个值的曲线图

yeyupiaoling commented 1 year ago

导出什么图？训练时的评估cer是贪心解码，eval评估的默认是集束搜索解码

wxy0505 commented 1 year ago

训练完不是有个loss和cer图吗，那训练的评价可以改成集合授索解析吗？

wxy0505 commented 1 year ago

训练的评价可以用集合授索的吗？

yeyupiaoling commented 1 year ago

那训练的评价可以改成集合授索解析吗？

可以改 https://github.com/yeyupiaoling/PPASR/blob/2f304cbee18d3c9fd2457ecc01c4737b7256ca50/ppasr/trainer.py#L413

yeyupiaoling commented 1 year ago

如果你是使用Windows的，本身就不支持几束搜索解码，所以改不改都是一样

wxy0505 commented 1 year ago

我用的Unbutu

wxy0505 commented 1 year ago

那个加预训练模型和不加预训练模型差别大吗？我刚才把训练的模型当作预训练模型训练了一会，但发现速度特别慢；

wxy0505 commented 1 year ago

你训练的模型当作预训练模型

yeyupiaoling commented 1 year ago

这个跟是否是用预训练模型无关，是模型配置变了，

wxy0505 commented 1 year ago

好的，哥我之前看你没更新之前是conformer-online的效果要好点，但我今天看你更新的是conformer-offline的效果好了，我现在要重新训练，所以想问问您我要用那个去训练，会有更好的效果，在AISHELL数据集上

yeyupiaoling commented 1 year ago

差不多。

wxy0505 commented 1 year ago

好的，谢谢

wxy0505 commented 1 year ago

哥，有没有什么办法可以解决多线程的问题，我用多线程时它训练两轮就会卡死，但不用多线程训练一次要100多天，就一个AISHELL数据集，而且batch_size我还是调的32，有没有什么办法可以解决？

yeyupiaoling commented 1 year ago

读取数据默认就是4个线程的。

yeyupiaoling commented 1 year ago

batchsize设置大，可能会爆显存

wxy0505 commented 1 year ago

我用4线程都会爆显存

wxy0505 commented 1 year ago

我之前也试着调小过，但发现都用不了那个多线程

yeyupiaoling commented 1 year ago

显存只跟batchsize和模型大小有关

wxy0505 commented 1 year ago

好的，我试试8跟4