关于使用不同的encoder的问题

图像领域的adain (from “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”)在使用过程中使用了同一个encoder 来抓取content 和 style，然后再使用adain来将特征融合。我认为这是合理的，因为只有保证特征空间对齐，使用Adain这种基于统计规律的特征转移才是可解释的。这个工程中采用不同的encoder分别抓取content和speaker的特征，然后使用adain，这种做法是基于什么考虑呢？是否有一些解释呢？

cyhuang-tw / AdaIN-VC

关于使用不同的encoder的问题 #16