wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit
Apache License 2.0
707 stars 116 forks source link

外部训练集上,同一模型,不同训练轮次的模型推理速度差异很大 #202

Closed mingleliuxx closed 1 year ago

mingleliuxx commented 1 year ago

你好,我在使用外部数据集进行训练的时候,使用的默认的ecapa的config。训练完成后,所保存的不同轮次的模型,会出现推理速度上的差异,最大的差异会到10倍左右。请问这里该如何解决? image image image image

JiJiJiang commented 1 year ago

企业微信截图_aecb3c59-d10c-4ff5-bd1e-0d95decb8c6b

JiJiJiang commented 1 year ago

感觉是机器不稳定,有多任务同时在跑导致rtf不稳定,建议同个模型多跑几次看看

mingleliuxx commented 1 year ago

感觉是机器不稳定,有多任务同时在跑导致rtf不稳定,建议同个模型多跑几次看看

我在运行推理代码时,后台是空载的。此外,单个推理过程我会for循环20次再统计。按理说是排除了机器的影响了

JiJiJiang commented 1 year ago

感觉是机器不稳定,有多任务同时在跑导致rtf不稳定,建议同个模型多跑几次看看

我在运行推理代码时,后台是空载的。此外,单个推理过程我会for循环20次再统计。按理说是排除了机器的影响了

很诡异,可以换台机器跑跑看哈

mingleliuxx commented 1 year ago

感觉是机器不稳定,有多任务同时在跑导致rtf不稳定,建议同个模型多跑几次看看

我在运行推理代码时,后台是空载的。此外,单个推理过程我会for循环20次再统计。按理说是排除了机器的影响了

很诡异,可以换台机器跑跑看哈

换过机器了,跟机器没关系的,提的RTF的问题是稳定复现的。另外用torchsummary和torchprofile都测试过了,两个模型的参数和macs都是一样的。

mingleliuxx commented 1 year ago

image image image image image

cdliang11 commented 1 year ago

导出onnx格式呢 ,可以试试。一般部署推理的时候,不使用原始的torch.Module, 采用onnx或者torch.jit

mingleliuxx commented 1 year ago

导出onnx是一样的结论的。 解决办法是减小正则化的值,从而增大权重,防止权重的绝对值太小导致推理缓慢。

cdliang11 commented 1 year ago

导出onnx是一样的结论的。 解决办法是减小正则化的值,从而增大权重,防止权重的绝对值太小导致推理缓慢。

纯好奇:你对比的是 model-1 和 model-60,看结果相差都有一个数量级了 🤕 , 训练后期模型(model-60, model-65)相差的大吗