Open zhanghongyong123456 opened 6 months ago
- 是的,因为图像生成的能力是利用VideoCrafter的空间层,跳过所有时序操作(参考UNet2DModel)。这里的网络结构本质上和SD是一致的。但是参数是根据VideoCrafter的网络权重训练的,所以必须要加载VideoCrafter的权重。但加载之后的inference过程,我觉得和直接使用SD是一样的,应该不会有额外的显存消耗和时间消耗,所以也没什么影响?
- 对,IP-Adapter是做image variation,垫一张底图生成其他类似的图像,文本只要有些控制能力就足够了,输入图像的一些内容可能会出现在生成结果上,但这也无所谓。所以他们视觉上会跟原图更像,而prompt控制能力没那么好。但我们做的就是风格化生成,目的就是把风格和内容解耦出来,尽量让参考图像只控制风格,prompt只控制内容,方法设计上也是按照这个目标去做的。
大佬,请问有没有可参考的图片风格化训练项目实现,对我来说加上视频生成这一部分,不太能理解相关实现