如何只训练问文本+风格化参考图得到风格化图片？

GongyeLiu / StyleCrafter

[SIGGRAPH Asia 2024 (Journal Track)]StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

Apache License 2.0

193 stars 15 forks source link

是的，因为图像生成的能力是利用VideoCrafter的空间层，跳过所有时序操作（参考UNet2DModel）。这里的网络结构本质上和SD是一致的。但是参数是根据VideoCrafter的网络权重训练的，所以必须要加载VideoCrafter的权重。但加载之后的inference过程，我觉得和直接使用SD是一样的，应该不会有额外的显存消耗和时间消耗，所以也没什么影响？
对，IP-Adapter是做image variation，垫一张底图生成其他类似的图像，文本只要有些控制能力就足够了，输入图像的一些内容可能会出现在生成结果上，但这也无所谓。所以他们视觉上会跟原图更像，而prompt控制能力没那么好。但我们做的就是风格化生成，目的就是把风格和内容解耦出来，尽量让参考图像只控制风格，prompt只控制内容，方法设计上也是按照这个目标去做的。

是的，因为图像生成的能力是利用VideoCrafter的空间层，跳过所有时序操作（参考UNet2DModel）。这里的网络结构本质上和SD是一致的。但是参数是根据VideoCrafter的网络权重训练的，所以必须要加载VideoCrafter的权重。但加载之后的inference过程，我觉得和直接使用SD是一样的，应该不会有额外的显存消耗和时间消耗，所以也没什么影响？

对，IP-Adapter是做image variation，垫一张底图生成其他类似的图像，文本只要有些控制能力就足够了，输入图像的一些内容可能会出现在生成结果上，但这也无所谓。所以他们视觉上会跟原图更像，而prompt控制能力没那么好。但我们做的就是风格化生成，目的就是把风格和内容解耦出来，尽量让参考图像只控制风格，prompt只控制内容，方法设计上也是按照这个目标去做的。

大佬，请问有没有可参考的图片风格化训练项目实现，对我来说加上视频生成这一部分，不太能理解相关实现

GongyeLiu / StyleCrafter

如何只训练问文本+风格化参考图得到风格化图片？ #8