Closed daikankan closed 1 year ago
差不多是你这样吧 我这边其实gan loss加的比较小的 起主要作用的还是其他的loss
@NetEase-GameAI 好的,再请教个问题,这些loss之间的平衡,感觉差异挺大的,需要维持现有的量级吗?平衡成相同的量级可行吗?
应该不行 reconstruction要占主要的
@NetEase-GameAI 感谢回复,还想请教个问题:motion_net和SPADE里面的卷积都替换成mobilenet_v2中的InvertedResidual,对效果影响大吗?现有模型是否还有比较大的压缩空间?
跟你具体应用有关,如果对质量要求不太高的情况下,应该还有优化空间吧。我测试下来,再当前框架下,不太可能再大幅压缩了。
@NetEase-GameAI 你好,想和大佬交流一下我目前遇到几个问题:a、图片驱动图片还可以(相似度还在提升),但用视频人脸驱动图片人脸的结果,背景动得厉害,如下5所示,可否交流一下如何提升驱动结果的真实感?特别是背景抖动问题,还是说只能通过分割去规避类似问题?b、生成结果在边界处会有明显痕迹,如高亮,或异常的颜色。c、当驱动人脸角度【pitch, yaw, roll】变化比较大时,生成得不理想,请问大佬在做这个任务时,是否会对样本对进行对齐,校准?(校准更容易学习,但为了保证背景不动,我目前不做校准,保留了样本对之间原有的平移旋转和缩放,但模型似乎难以学到对背景的补齐能力(如impainting)) 1、原始图片人脸: 2、驱动图片人脸: 3、由2驱动1,生成的图片人脸: 4、驱动视频人脸: https://user-images.githubusercontent.com/20749514/234226701-88c57755-b7d5-4e7a-a952-53a6d3b188d4.mp4 5、由4驱动1,生成的视频人脸: https://user-images.githubusercontent.com/20749514/234226827-62e41eba-c2a8-4bb3-86b2-d3a9445ffc94.mp4
@NetEase-GameAI 你好,想和大佬交流一下我目前遇到几个问题:a、图片驱动图片还可以(相似度还在提升),但用视频人脸驱动图片人脸的结果,背景动得厉害,如下5所示,可否交流一下如何提升驱动结果的真实感?特别是背景抖动问题,还是说只能通过分割去规避类似问题?b、生成结果在边界处会有明显痕迹,如高亮,或异常的颜色。c、当驱动人脸角度【pitch, yaw, roll】变化比较大时,生成得不理想,请问大佬在做这个任务时,是否会对样本对进行对齐,校准?(校准更容易学习,但为了保证背景不动,我目前不做校准,保留了样本对之间原有的平移旋转和缩放,但模型似乎难以学到对背景的补齐能力(如impainting)) 1、原始图片人脸: 2、驱动图片人脸: 3、由2驱动1,生成的图片人脸: 4、驱动视频人脸: https://user-images.githubusercontent.com/20749514/234226701-88c57755-b7d5-4e7a-a952-53a6d3b188d4.mp4 5、由4驱动1,生成的视频人脸: https://user-images.githubusercontent.com/20749514/234226827-62e41eba-c2a8-4bb3-86b2-d3a9445ffc94.mp4
问题一好像是因为 如果你使用的3DMM模型是针对单帧图像的话就会存在抖动,可能基于视频序列的3DMM模型的效果会更好。 另外想问您,训练的时候是只训练reenact部分,fitting部分是冻结参数的嘛?
@wong00 全部重训的,我的驱动因子不一样了(作者是基于自己厂的3DMM模型,但他们厂应该不同意开源的),我只能基于自有的资源来构建,所以重写了很多模块了
@wong00 全部重训的,我的驱动因子不一样了(作者是基于自己厂的3DMM模型,但他们厂应该不同意开源的),我只能基于自有的资源来构建,所以重写了很多模块了
感谢。 请问您数据集预处理了多久? 另外,关键点和头部姿态都是提前生成好,还是在训练的时候边生成,边渲染呢?
大家是不是都去做 diffusion model 了? 其实这个也挺有意思的,目前的效果:
源人脸:
驱动源(图片+蚂蚁呀嘿视频+talking视频):
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/8652fbbe-f82e-4b97-a709-b8025ccdf769
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/116d8496-5bda-4244-b065-bed03088f5b3
生成效果:
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/dcc82667-73b0-4513-8a67-1582c52e517a
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/bbb88b2f-73a0-4145-b208-c154453ad71f
原作者效果: 可能作者用了他们比较小的三维模型,精准度好像还不太够(DECA就更差了),如下: 如果作者能放一些视频效果出来就好了,探讨一下这类FOMM方法的上限究竟能达到怎样的效果,不过个人感觉三维模型好像很难把五官关键点拟合得很准,但是可以保证人脸shape。
大家是不是都去做 diffusion model 了? 其实这个也挺有意思的,目前的效果:
源人脸:
驱动源(图片+蚂蚁呀嘿视频+talking视频):
myyh.mp4 m_1.mp4 生成效果:
source_myyh.mp4 source_m_1.mp4
你上传的这几个视频有几个看不了
@wong00 wget https://user-images.githubusercontent.com/20749514/245128317-bbb88b2f-73a0-4145-b208-c154453ad71f.mp4 wget https://user-images.githubusercontent.com/20749514/245128348-dcc82667-73b0-4513-8a67-1582c52e517a.mp4
好像驱动效果还可以 但背景怎么抖动这么厉害 是直接拼接回原图的吗
@daikankan 请问你在训练的时候可视化结果正常吗? 目前训练至15个epoch 结果是这样
大家是不是都去做 diffusion model 了? 其实这个也挺有意思的,目前的效果:
源人脸:
驱动源(图片+蚂蚁呀嘿视频+talking视频):
myyh.mp4 m_1.mp4 生成效果:
source_myyh.mp4 source_m_1.mp4 原作者效果: 可能作者用了他们比较小的三维模型,精准度好像还不太够(DECA就更差了),如下: 如果作者能放一些视频效果出来就好了,探讨一下这类FOMM方法的上限究竟能达到怎样的效果,不过个人感觉三维模型好像很难把五官关键点拟合得很准,但是可以保证人脸shape。
m_1 效果不错啊, 是生成的脖子以上吗
给大家看看最新的效果,感觉快到极限了> <,除非有更好的数据集,更强大的机器来训大模型,这类方法感觉对于大角度还是容易变糊(我指直接融合,不依赖分割),牙齿不太好监督:
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/a0778b34-86e6-4a4a-a8ae-3c242dfbb401
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/3320f170-25b9-40d0-9b28-1424217f135f
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/9be3bdf0-df06-4090-b04f-2d7124b699e4
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/0123a1fc-9fa9-4e2f-8398-46d925b6cb18
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/5f50301d-67a2-42ab-83fc-9b0c2a1bc148
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/f5f3b6cc-8220-4011-add9-52205eab4ca6
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/b0e14fca-c034-4521-92f0-7cf3af8cb504
其中后二个驱动视频:
https://github.com/NetEase-GameAI/Face2FaceRHO/assets/20749514/39d7cc28-810d-4605-854f-31cd917d390e
不知道你们有没有尝试过类似 https://github.com/NVlabs/face-vid2vid 的方法,不知道会不会有质的提升?
请教一下这样的loss曲线是否正常,感觉判别器太强了,起不到指导监督作用,可以看看作者的loss曲线吗? 我用自己的三维模型,训练的结果: 源图: 驱动图: 结果: