THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型
Apache License 2.0
4.09k stars 416 forks source link

请教一下默认的image encoder是什么? #56

Open ldfandian opened 1 year ago

ldfandian commented 1 year ago

是EVA CLIP这个超大的模型不?看了下代码,没有直接提到呢~

freelancerllm commented 1 year ago

同问。模型的架构能提供一下不,这个和minigpt-4是一样的?

Sleepychord commented 1 year ago

是的,本项目和minigpt-4都是基于BLIP2的思路,结构类似。具体可以看model文件夹下的代码。

ldfandian commented 1 year ago

是的,本项目和minigpt-4都是基于BLIP2的思路,结构类似。具体可以看model文件夹下的代码。

看层数配置起来就是EVA-CLIP。。。暴大的模型 image