cyhuang-tw / AdaIN-VC

An unofficial implementation of the paper "One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization".
115 stars 20 forks source link

关于使用不同的encoder的问题 #16

Open folkartist opened 5 months ago

folkartist commented 5 months ago

图像领域的adain (from “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”)在使用过程中使用了同一个encoder 来抓取content 和 style,然后再使用adain来将特征融合。我认为这是合理的,因为只有保证特征空间对齐,使用Adain这种基于统计规律的特征转移才是可解释的。 这个工程中采用不同的encoder分别抓取content和speaker的特征,然后使用adain,这种做法是基于什么考虑呢?是否有一些解释呢?