Closed chunyu-li closed 2 months ago
Hello, 正如我们在README里写到,MuseTalk虽然使用了sd1.5的模型结构(和vae权重),但它不是扩散模型。https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file#model
Hello, 正如我们在README里写到,MuseTalk虽然使用了sd1.5的模型结构(和vae权重),但它不是扩散模型。https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file#model
By the way,你们使用了 sd1.5 的模型权重吗?还是说你们是 from scratch 训练的 unet?
Hello, 正如我们在README里写到,MuseTalk虽然使用了sd1.5的模型结构(和vae权重),但它不是扩散模型。https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file#model
使用了vae + unet模型来进行了推理,并没有使用random seed来扩散,所以不叫扩散模型对吧?
Hello, 正如我们在README里写到,MuseTalk虽然使用了sd1.5的模型结构(和vae权重),但它不是扩散模型。https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file#model
使用了vae + unet模型来进行了推理,并没有使用random seed来扩散,所以不叫扩散模型对吧?
扩散模型的核心是多步生成,跟有没有 random seed 没关系,GAN和VAE生成过程也有random seed
Hello, 正如我们在README里写到,MuseTalk虽然使用了sd1.5的模型结构(和vae权重),但它不是扩散模型。https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file#model
By the way,你们使用了 sd1.5 的模型权重吗?还是说你们是 from scratch 训练的 unet?
unet的权重是from scratch的,主要考虑到sd的unet的output是噪声而不是有意义的latent
看代码似乎生成每一帧的时候 Unet 只 forward 了一次?我的理解正确吗,那这还算是扩散模型吗