Embed mode for AudioLDM model

haoheliu / AudioLDM-training-finetuning

AudioLDM training, finetuning, evaluation and inference.

https://audioldm.github.io/audioldm2/

MIT License

174 stars 34 forks source link

Embed mode for AudioLDM model #23

Closed NZqian closed 7 months ago

NZqian commented 7 months ago

It seems that the the model is contitioned on text embedding in the config, while the paper concludes that it is better to use audio embedding, so which one is better?