请教一下默认的image encoder是什么？

THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

Apache License 2.0

4.09k stars 416 forks source link

Open ldfandian opened 1 year ago

ldfandian commented 1 year ago

是EVA CLIP这个超大的模型不？看了下代码，没有直接提到呢~

freelancerllm commented 1 year ago

同问。模型的架构能提供一下不，这个和minigpt-4是一样的？

Sleepychord commented 1 year ago

是的，本项目和minigpt-4都是基于BLIP2的思路，结构类似。具体可以看model文件夹下的代码。

ldfandian commented 1 year ago

是的，本项目和minigpt-4都是基于BLIP2的思路，结构类似。具体可以看model文件夹下的代码。

看层数配置起来就是EVA-CLIP。。。暴大的模型