xinwen-cs / AudioDVP

AudioDVP:Photorealistic Audio-driven Video Portraits
https://github.com/xinwen-cs/AudioDVP
299 stars 51 forks source link

关于delta 的具体含义? #35

Closed DWCTOD closed 2 years ago

DWCTOD commented 2 years ago

大佬您好,感谢您的分享,非常棒的工作! 我想问一下关于人脸重建中 delta 参数的具体含义,在这里构建mouthmask的时候 https://github.com/xinwen-cs/AudioDVP/blob/1b7a6bc85bda6df16c9709d08d7b1415b449c584/models/networks.py#L234 将 delta[0, 0, 0] = -8.0 ,这里可以直接控制嘴巴的张闭,我尝试将delta的其他数值进行调整,发现有些值能够直接控制嘴巴张闭另外一些值无法控制,同时对自己的数据集训练出来的delta值进行打印,发现delta的64个参数里面很多值都是比较小的(10^-2),只有个别数值的绝对值在0.x~1.x的区间,那么这样子的输入数据会怎样影响结果呢?

具体来说,我的疑问就是,以delta作为grouth truth,但是发现里面大部分是无关紧要的值,那么会不会导致模型最终学习的结果,忽略了我们想要直接控制嘴巴张闭的特征?

MtYCNN commented 10 months ago

大佬您好,感谢您的分享,非常棒的工作! 我想问一下关于人脸重建中 delta 参数的具体含义,在这里构建mouthmask的时候

https://github.com/xinwen-cs/AudioDVP/blob/1b7a6bc85bda6df16c9709d08d7b1415b449c584/models/networks.py#L234

将 delta[0, 0, 0] = -8.0 ,这里可以直接控制嘴巴的张闭,我尝试将delta的其他数值进行调整,发现有些值能够直接控制嘴巴张闭另外一些值无法控制,同时对自己的数据集训练出来的delta值进行打印,发现delta的64个参数里面很多值都是比较小的(10^-2),只有个别数值的绝对值在0.x~1.x的区间,那么这样子的输入数据会怎样影响结果呢? 具体来说,我的疑问就是,以delta作为grouth truth,但是发现里面大部分是无关紧要的值,那么会不会导致模型最终学习的结果,忽略了我们想要直接控制嘴巴张闭的特征?

您好,请问这个问题您后来是怎么优化解决的呢?