showlab / Show-o

Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.
https://arxiv.org/abs/2408.12528
Apache License 2.0
1.04k stars 44 forks source link

生成只能用magvit吗 #46

Open sherlockma11 opened 1 month ago

sherlockma11 commented 1 month ago

你好,我看到图片理解部分可以使用clip,也可以使用magvit,但是生成的时候似乎只能用magvit?

Sierkinhane commented 1 month ago

是的,magvit有对应的decoder,clip没有。