外部训练集上，同一模型，不同训练轮次的模型推理速度差异很大

wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit

Apache License 2.0

707 stars 116 forks source link

Closed mingleliuxx closed 1 year ago

mingleliuxx commented 1 year ago

你好，我在使用外部数据集进行训练的时候，使用的默认的ecapa的config。训练完成后，所保存的不同轮次的模型，会出现推理速度上的差异，最大的差异会到10倍左右。请问这里该如何解决？

JiJiJiang commented 1 year ago

企业微信截图_aecb3c59-d10c-4ff5-bd1e-0d95decb8c6b

JiJiJiang commented 1 year ago

感觉是机器不稳定，有多任务同时在跑导致rtf不稳定，建议同个模型多跑几次看看

mingleliuxx commented 1 year ago

感觉是机器不稳定，有多任务同时在跑导致rtf不稳定，建议同个模型多跑几次看看

我在运行推理代码时，后台是空载的。此外，单个推理过程我会for循环20次再统计。按理说是排除了机器的影响了

JiJiJiang commented 1 year ago

感觉是机器不稳定，有多任务同时在跑导致rtf不稳定，建议同个模型多跑几次看看

我在运行推理代码时，后台是空载的。此外，单个推理过程我会for循环20次再统计。按理说是排除了机器的影响了

很诡异，可以换台机器跑跑看哈

mingleliuxx commented 1 year ago

感觉是机器不稳定，有多任务同时在跑导致rtf不稳定，建议同个模型多跑几次看看

我在运行推理代码时，后台是空载的。此外，单个推理过程我会for循环20次再统计。按理说是排除了机器的影响了

很诡异，可以换台机器跑跑看哈

换过机器了，跟机器没关系的，提的RTF的问题是稳定复现的。另外用torchsummary和torchprofile都测试过了，两个模型的参数和macs都是一样的。

mingleliuxx commented 1 year ago

cdliang11 commented 1 year ago

导出onnx格式呢，可以试试。一般部署推理的时候，不使用原始的torch.Module, 采用onnx或者torch.jit

mingleliuxx commented 1 year ago

导出onnx是一样的结论的。解决办法是减小正则化的值，从而增大权重，防止权重的绝对值太小导致推理缓慢。

cdliang11 commented 1 year ago

导出onnx是一样的结论的。解决办法是减小正则化的值，从而增大权重，防止权重的绝对值太小导致推理缓慢。

纯好奇：你对比的是 model-1 和 model-60，看结果相差都有一个数量级了 🤕 , 训练后期模型（model-60, model-65)相差的大吗