关于dasheng文章理解上的一个小问题

SmoothJing commented 3 hours ago

作者您好！感谢您的贡献我在阅读您文章的时候遇到一个理解上的问题；您在文章的 3.1.2. Downstream datasets部分有这样一句话 "The HEAR benchmark trains a shal low multi-layer perceptron (MLP) classifier on top of frozen embeddings. " 这句话我有两种理解，有点模糊，所以向您请教下：（1）直接使用dasheng预训练模型提取音频的embedding，在embedding之后加一个MLP将其映射到类别维度进行训练；然后在HEAR 基准测试各种下游任务的性能。（2）冻结dasheng预训练模型，然后使用要评估任务的数据集训练MLP分类器，相当于是进行微调。我有些模糊您在文章中表达的意思，不知道哪种理解是正确的，期待得到您的答复。

祝好！！！

RicherMans commented 2 hours ago

你好， 1 和 2 对我来说是一样的意思。直接使用dasheng提取一个（冻结的）和冻结dasheng就一样啊。

主要hear里面的要求是：模型不会被finetune。他只是拿一个固定的embedding（模型完全冻结）。简单来说，只是mlp会训练。

论文中也有一些非训练参数的测试结果。

SmoothJing commented 2 hours ago

您好！！！我明白您所表述的意思了，您的意思是，hear基准测试中是直接使用预训练好的dasheng提取embedding，这个embedding作为下游任务的特征送入MLP进行分类。谢谢您的回复！

RicherMans commented 2 hours ago

嗯嗯你理解是对的

XiaoMi / dasheng

关于dasheng文章理解上的一个小问题 #4