Open Yanllan opened 5 months ago
支持自定义视觉编码器么(llava-llama3)? 例如将clip换成siglip? 该如何实现?哪些代码需要修改?
已经在重构视觉部分了,快了。
哇,兄弟,你也是看了google 的paligamma吗?sigclip这个确实要比vitclip好用啊。
请问有进展吗?
支持自定义视觉编码器么(llava-llama3)? 例如将clip换成siglip? 该如何实现?哪些代码需要修改?