网络的输出分辨率是多少，演示视频的牙齿好像很模糊

tanshuai0219 / EDTalk

[ECCV 2024 Oral] EDTalk - Official PyTorch Implementation

Apache License 2.0

315 stars 27 forks source link

网络的输出分辨率是多少，演示视频的牙齿好像很模糊 #3

Closed kike-0304 closed 2 months ago

tanshuai0219 commented 5 months ago

分辨率是256*256的，有些case确实会存在牙齿模糊，这也是当前较低分辨率 generator的通病，如fomm， pirender等。当前开源的用diffusion model 来做的工作，如AniPortrait生成的分辨率会更高一点，但牙齿部分的建模仍然比较奇怪。另外，这样的模型推理比较慢，且需要较大的计算资源，我目前还没有能力支付这样的算力进行训练。

可以参考sadtalker的后处理方式，用codeformer或者MetaPortrait来对生成的视频进行高分辨率视频的生成。

xiao-keeplearning commented 3 months ago

你好，问下你有研究过微软的vasa-1么，那个看demo效果挺好而且速度快

tanshuai0219 commented 2 months ago

你好，问下你有研究过微软的vasa-1么，那个看demo效果挺好而且速度快

我对vasa-1还是挺感兴趣的，无奈不开源，只能望洋兴叹了

HJHGJGHHG commented 2 months ago

你好，问下你有研究过微软的vasa-1么，那个看demo效果挺好而且速度快

VASA的render用的是MegaPortraits (Drobyshev et al., @ MM 22)，一作最新的工作EMOPortraits (@ CVPR 24)计划这两个月开源，与MegaPortraits方法接近，可以关注一下

tanshuai0219 commented 2 months ago

你好，问下你有研究过微软的vasa-1么，那个看demo效果挺好而且速度快

VASA的render用的是MegaPortraits (Drobyshev et al., @ MM 22)，一作最新的工作EMOPortraits (@ CVPR 24)计划这两个月开源，与MegaPortraits方法接近，可以关注一下

嗯嗯我知道的也一直在关注

piwawa commented 1 week ago

你好，问下你有研究过微软的vasa-1么，那个看demo效果挺好而且速度快

VASA的render用的是MegaPortraits (Drobyshev et al., @ MM 22)，一作最新的工作EMOPortraits (@ CVPR 24)计划这两个月开源，与MegaPortraits方法接近，可以关注一下

EMOPortraits 这个项目开源了，不知道咋用啊？能用来替换什么组件吗？