图像领域的adain (from “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”)在使用过程中使用了同一个encoder 来抓取content 和 style,然后再使用adain来将特征融合。我认为这是合理的,因为只有保证特征空间对齐,使用Adain这种基于统计规律的特征转移才是可解释的。
这个工程中采用不同的encoder分别抓取content和speaker的特征,然后使用adain,这种做法是基于什么考虑呢?是否有一些解释呢?
图像领域的adain (from “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”)在使用过程中使用了同一个encoder 来抓取content 和 style,然后再使用adain来将特征融合。我认为这是合理的,因为只有保证特征空间对齐,使用Adain这种基于统计规律的特征转移才是可解释的。 这个工程中采用不同的encoder分别抓取content和speaker的特征,然后使用adain,这种做法是基于什么考虑呢?是否有一些解释呢?