menyifang / MIMO

Official implementation of "MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling"
Apache License 2.0
1.31k stars 52 forks source link

我看了论文有点蒙蔽,有可以解答的朋友吗 #8

Open chenpipi0807 opened 1 month ago

chenpipi0807 commented 1 month ago

我有两点疑惑,第一个是他的每一帧是逐帧生成的吗,第二个是他只借助一张图像就能生成这个和ipadapter有什么区别:

关于图像本身的一致性保障: 在人类编码中,通过结构化运动表示,使用可变形人体模型的顶点锚定潜在代码来表示 3D 运动,建立了从潜在代码到不同视频帧中 3D 人体表面的 2D 渲染的对应关系,使得运动表示更具一致性。 对于身份表示,通过使用预训练的人体重定位模型将人体图像转换为标准 A - pose 的规范结果,再输入 ID 编码器获得身份代码,从而实现了身份和运动属性的完全解纠缠,保障了图像在身份属性上的一致性。