wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit
Apache License 2.0
630 stars 109 forks source link

训练问题请教 #278

Closed wcqy-ye closed 5 months ago

wcqy-ye commented 6 months ago

在我尝试使用自己修改的模型进行训练,出现了以下错误:

企业微信截图_17083345347344 企业微信截图_17083346253262

发现是在dataloader过程中出现问题,但是我尝试这样结果也没有对应输出111

企业微信截图_17083346716900

以及我发现在这个过程中会不断的占用内存直到占用完之后就报上面提到的错误

企业微信截图_17083351855345

以及我在使用您提供的原本示例却没有这个问题出现,所以我猜测可能是我的模型本身和您实例不太匹配?比如池化方法什么的,希望能得到您的回复

JiJiJiang commented 6 months ago

看报错的log像是number-worker设置数量太多,dataloader的进程被系统杀死了,并不是什么代码的bug 原因是机器的cpu核数太少,只需减少number-worker数目即可,在config/xxx.yaml里面修改

wcqy-ye commented 5 months ago

看报错的log像是number-worker设置数量太多,dataloader的进程被系统杀死了,并不是什么代码的bug 原因是机器的cpu核数太少,只需减少number-worker数目即可,在config/xxx.yaml里面修改

非常感谢您的回复,之前的问题解决了,现在又出现一个新的尺寸不匹配的错误:

企业微信截图_17085034481421

这个res2的模块我是复制您ecapatdnn中的代码,应该是由于这个conv改变了最后一个维度导致的

企业微信截图_17085035995839 企业微信截图_1708503516314

但是我运行您原本的示例没有出现这个问题 尺寸没有被改变

企业微信截图_17085041365969 企业微信截图_17085042255067

想请教一下您认为可以怎么修改呢

wcqy-ye commented 5 months ago
企业微信截图_17085065823708

发现是padding没有设置 设置padding之后解决了 谢谢您

wcqy-ye commented 5 months ago

但是好像目前又出现了另外一个问题 image

wcqy-ye commented 5 months ago

但是好像目前又出现了另外一个问题 image

问题已经解决了 设置find_unused_parameters=False解决

企业微信截图_17085884463726