Open lucasjinreal opened 1 week ago
有没有计划重新训练magvit2,目前open-magvit2的压缩率还是不够低 256x256 -> 16x16=256个token,字节的titok可以做到256x256压缩到只有32个token,这对于用LLAVA做多图片推理或者视频推理非常有用,当然这样做生成任务画质就不行了 titok
你说的有道理,但是字节的tiktok开源了吗
你说的有道理,但是字节的tiktok开源了吗
你说的有道理,但是字节的tiktok开源了吗
看起来titok 是目前最promising的选择。
magvit2 的 codebook较大,且下采样3的效果才ok,带来的是18xhxw的总token数,整体来说还是太大了。
遗憾的是,titok 目前还没有看到开放的权重。
Hi @lucasjinreal,非常感谢你发起的这个开源project~
Current issue:
- Seems magvit2 outputs a binary feature, hard to using conditional features for LLM guided generation.
关于你这里提到的问题,你好像要用到MAGVIT2得到的binary feature,我想问一下你是具体打算怎么利用MAGVIT2结合LLAVA来做图像生成呢?
如果是像MAGVIT2原文中那样做,那其生成的binary feature用于计算token Index,然后每个index对应embedding会和LLM里面的vocabulary一同被学习。他们使用的是18维的binary feature,故而需要学习的图像相关embedding的数量为 218.
还是说你想用这些binary feature来初始化那些需要学习的embedding?但是其在维度上差距太大且是binary形式,不知实现起来效果如何
我目前的想法是,将Magvit2的codebook indices直接丢给LLM。但这个tokenizer实际上输出的token数目还是过多,似乎不太适合用来做理解。
目前我推出了ImageTokenizer,可以尝试基于OmniTokenizer来做token。
我目前的想法是,将Magvit2的codebook indices直接丢给LLM。但这个tokenizer实际上输出的token数目还是过多,似乎不太适合用来做理解。
目前我推出了ImageTokenizer,可以尝试基于OmniTokenizer来做token。
目前尚未有一种有效的手段或方法,来验证imageTokenizer出来的码本id,具有一定程度的语义关联
Tracking the model design status and training logs here.
Current status:
Current issue:
Before status: