Audio-WestlakeU / FS-EEND

The official Pytorch implementation of "Frame-wise streaming end-to-end speaker diarization with non-autoregressive self-attention-based attractors". [ICASSP 2024]
MIT License
71 stars 4 forks source link

training time #8

Closed DTDwind closed 7 months ago

DTDwind commented 8 months ago

老师您好,我看到您的论文描述训练的三个阶段: step1:先用2-speaker dataset训练100 epochs, step2:然后 1-4语者 50 epochs, step3:之后domain finetune 100 epochs。 不知可否请教老师三个阶段分别大约花费多少训练时间呢? 以及老师是在甚么样的设备上进行训练的? 因为我目前观察EEND相关研究大多需要消耗大量训练资源,所以正在做这样的一份调查,希望老师可以协助提供相关资讯,谢谢。

DiLiangWU commented 7 months ago

您好,三个阶段的训练时间分别为: step1: 13.27hr (4卡, ddp并行训练) step2: 2.01day (4卡, ddp并行训练) step3: 1.766hr (单卡训练)

训练设备: 显卡: A100 显存: 40G CPU核数: 128

DTDwind commented 7 months ago

谢谢您详细的说明,这对我的研究有着不小的帮助。