GongyeLiu / StyleCrafter

[SIGGRAPH Asia 2024 (Journal Track)]StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter
https://gongyeliu.github.io/StyleCrafter.github.io/
Apache License 2.0
193 stars 15 forks source link

如何只训练问文本+风格化参考图得到风格化图片? #8

Open zhanghongyong123456 opened 6 months ago

zhanghongyong123456 commented 6 months ago
  1. 请问大佬,我如果只想得到文本+参考的风格化图像得到风格化的图像模型,有好的项目可以参考进行训练吗,因为我发现我们项目代码基础模型加载的是文本生成视频的模型videocrafter_t2v_320_512,那我只想生成风格化图片,没有必要使用视频生成模型? image
  2. 我发现这里风格化和IP-Adapter(https://github.com/tencent-ailab/IP-Adapter)不同,项目中风格化更多是提取参考图的风格+ 文本提升内容,IP-Adapter更多倾向于参考图作为底图进行绘制
GongyeLiu commented 6 months ago
  1. 是的,因为图像生成的能力是利用VideoCrafter的空间层,跳过所有时序操作(参考UNet2DModel)。这里的网络结构本质上和SD是一致的。但是参数是根据VideoCrafter的网络权重训练的,所以必须要加载VideoCrafter的权重。但加载之后的inference过程,我觉得和直接使用SD是一样的,应该不会有额外的显存消耗和时间消耗,所以也没什么影响?
  2. 对,IP-Adapter是做image variation,垫一张底图生成其他类似的图像,文本只要有些控制能力就足够了,输入图像的一些内容可能会出现在生成结果上,但这也无所谓。所以他们视觉上会跟原图更像,而prompt控制能力没那么好。但我们做的就是风格化生成,目的就是把风格和内容解耦出来,尽量让参考图像只控制风格,prompt只控制内容,方法设计上也是按照这个目标去做的。
zhanghongyong123456 commented 6 months ago
  1. 是的,因为图像生成的能力是利用VideoCrafter的空间层,跳过所有时序操作(参考UNet2DModel)。这里的网络结构本质上和SD是一致的。但是参数是根据VideoCrafter的网络权重训练的,所以必须要加载VideoCrafter的权重。但加载之后的inference过程,我觉得和直接使用SD是一样的,应该不会有额外的显存消耗和时间消耗,所以也没什么影响?
  2. 对,IP-Adapter是做image variation,垫一张底图生成其他类似的图像,文本只要有些控制能力就足够了,输入图像的一些内容可能会出现在生成结果上,但这也无所谓。所以他们视觉上会跟原图更像,而prompt控制能力没那么好。但我们做的就是风格化生成,目的就是把风格和内容解耦出来,尽量让参考图像只控制风格,prompt只控制内容,方法设计上也是按照这个目标去做的。

大佬,请问有没有可参考的图片风格化训练项目实现,对我来说加上视频生成这一部分,不太能理解相关实现