XiaoMi / dasheng

Official PyTorch code for Deep Audio-Signal Holistic Embeddings
Apache License 2.0
48 stars 7 forks source link

关于dasheng文章理解上的一个小问题 #4

Open SmoothJing opened 3 hours ago

SmoothJing commented 3 hours ago

作者您好! 感谢您的贡献 我在阅读您文章的时候遇到一个理解上的问题;您在文章的 3.1.2. Downstream datasets部分有这样一句话 "The HEAR benchmark trains a shal low multi-layer perceptron (MLP) classifier on top of frozen embeddings. " 这句话我有两种理解,有点模糊,所以向您请教下: (1)直接使用dasheng预训练模型提取音频的embedding,在embedding之后加一个MLP将其映射到类别维度进行训练;然后在HEAR 基准测试各种下游任务的性能。 (2)冻结dasheng预训练模型,然后使用要评估任务的数据集训练MLP分类器,相当于是进行微调。 我有些模糊您在文章中表达的意思,不知道哪种理解是正确的,期待得到您的答复。

祝好!!!

RicherMans commented 2 hours ago

你好, 1 和 2 对我来说是一样的意思。 直接使用dasheng提取一个(冻结的)和冻结dasheng就一样啊。

主要hear里面的要求是:模型不会被finetune。他只是拿一个固定的embedding(模型完全冻结)。 简单来说,只是mlp会训练。

论文中也有一些非训练参数的测试结果。

SmoothJing commented 2 hours ago

您好!!! 我明白您所表述的意思了,您的意思是,hear基准测试中是直接使用预训练好的dasheng提取embedding,这个embedding作为下游任务的特征送入MLP进行分类。 谢谢您的回复!

RicherMans commented 2 hours ago

嗯嗯你理解是对的