CyberAgentAILab / TANGO

Official implementation of the paper "TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation"
https://pantomatrix.github.io/TANGO/
Other
349 stars 77 forks source link

这个项目非常好,点赞!请问什么时候可以发布高清和无时长限制的版本? #12

Open wangaocheng opened 2 weeks ago

wangaocheng commented 2 weeks ago

感谢作者的项目。

tsxxdw commented 2 weeks ago

它的高清版代码里面就有

wangaocheng commented 2 weeks ago

@tsxxdw app.py?

wangaocheng commented 2 weeks ago

@tsxxdw 可以告诉我哪段代码是高清输出吗?感谢。

dh12306 commented 1 week ago

@tsxxdw 可以告诉我哪段代码是高清输出吗?感谢。

找到高清部分代码了吗,同求

tsxxdw commented 1 week ago

首先他这里的原理是对要学习的视频压缩,所以你生成的视频肯定不清晰,简单的办法就是将代码中视频的分辨率进行简单的修改,例如app.py中将类似于512这样的分辨率的数字适当的变大一点就可以修改得到的视频的分辨率了,但是这个办法治标不治本。要想真正解决需要去修改wav2lip中的inter代码,还有创建动作那个文件的代码。修改之后可以优化质量。再配合高清修复视频的软件,可以勉强得到相对清晰的视频。目前只能这样。但问题来了,如果不进行图片压缩,而是保持最清晰的图片1920X1028去做视频生成,42G的显存也不够。总之这个地方比较麻烦。

tango数字人已经部署成功,### 云端和本地窗口均能运行,目前可以满足分辨率满足720-1280。可以通过我的邮箱 494456995@qq.com 联系我,总之你们遇到的问题我都遇到过。 1 解决req.txt 依赖安装报错的问题 2 解决35G的模型重复下载问题 3 解决视频生成无声音问题 4 解决分辨率非常模糊问题 5 窗口本地部署后执行报错的问题。(2个地方会报错) 6 解决内存或者显存动不动就溢出的问题。 7 解决生成时长限制的问题(不仅仅是修改时长,更多的是从资源优化的角度) 8 解决视频生成掉帧问题(也就是视频看起来不连贯) 9 目前linux+window 均已经跑通了,且优化了。在云端4090生成3分钟的视频最快15分钟时间就生成了。 10 最后有需要的通过邮箱联系我吧!(有偿的300元,毕竟我也花费了很久的时间还请见谅) 11 不管是部署还是学习代码,我会的都告诉你。 @dh12306 @wangaocheng

tsxxdw commented 1 week ago

@tsxxdw app.py?

是的。但是不仅仅这一个文件,还有另外一个文件也要类似的修改。但是简单的修改之后内存和显存都会爆,所以还要进行内存和显存的优化才行,邮箱联系我吧,494456995@qq.com,我会告诉你一切。目前我已经全部跑通了(linux+window)