bytedance / SALMONN

SALMONN: Speech Audio Language Music Open Neural Network
https://bytedance.github.io/SALMONN/
Apache License 2.0
978 stars 75 forks source link

第一阶段speech Qformer的训练和模型 #40

Open ASolitaryMan opened 4 months ago

ASolitaryMan commented 4 months ago

你好,请问第一阶段speech Qformer的训练和模型代码开源吗

TCL606 commented 4 months ago

第一阶段的训练和模型的代码也是目前发布的这一套,不过只训练ASR和AAC而已 ~

HenrryLiu24 commented 2 months ago

你好,我想问一下在第一阶段训练ASR和AAC的过程中的具体的训练设置是什么,使用的epoch base还是step base,大概训练了多少个epochs/steps呢?

TCL606 commented 2 months ago

你好,我想问一下在第一阶段训练ASR和AAC的过程中的具体的训练设置是什么,使用的epoch base还是step base,大概训练了多少个epochs/steps呢?

我们的训练都是 step base 的,数据在 paper 中有提到,32 卡大概训练了 8w 步左右吧

blue-blue272 commented 1 month ago

你好,我想问一下在第一阶段训练ASR和AAC的过程中的具体的训练设置是什么,使用的epoch base还是step base,大概训练了多少个epochs/steps呢?

我们的训练都是 step base 的,数据在 paper 中有提到,32 卡大概训练了 8w 步左右吧

您好,有几个训练的问题想请假一下:

  1. 第一阶段是32卡,单卡batch size设置为8, lr按照config的设置为3e-5吗?
  2. 第二阶段的训练配置(lr, batchsize等)和第一阶段一样吗?是从第一阶段的模型初始化,用不同的数据进行训练吗?