Open SmoothJing opened 3 hours ago
你好, 1 和 2 对我来说是一样的意思。 直接使用dasheng提取一个(冻结的)和冻结dasheng就一样啊。
主要hear里面的要求是:模型不会被finetune。他只是拿一个固定的embedding(模型完全冻结)。 简单来说,只是mlp会训练。
论文中也有一些非训练参数的测试结果。
您好!!! 我明白您所表述的意思了,您的意思是,hear基准测试中是直接使用预训练好的dasheng提取embedding,这个embedding作为下游任务的特征送入MLP进行分类。 谢谢您的回复!
嗯嗯你理解是对的
作者您好! 感谢您的贡献 我在阅读您文章的时候遇到一个理解上的问题;您在文章的 3.1.2. Downstream datasets部分有这样一句话 "The HEAR benchmark trains a shal low multi-layer perceptron (MLP) classifier on top of frozen embeddings. " 这句话我有两种理解,有点模糊,所以向您请教下: (1)直接使用dasheng预训练模型提取音频的embedding,在embedding之后加一个MLP将其映射到类别维度进行训练;然后在HEAR 基准测试各种下游任务的性能。 (2)冻结dasheng预训练模型,然后使用要评估任务的数据集训练MLP分类器,相当于是进行微调。 我有些模糊您在文章中表达的意思,不知道哪种理解是正确的,期待得到您的答复。
祝好!!!