[Feature] 支持视觉信息输入和理解，类似于GPT-4

THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型

Apache License 2.0

40.46k stars 5.19k forks source link

Closed feizc closed 1 year ago

feizc commented 1 year ago

通过微调模型，支持视觉信息输入，类似于GPT-4。

目前已经在LLaMA语言模型上进行尝试，且结果不错。参考：https://github.com/feizc/Visual-LLaMA

在迁移到chatglm的时候遇到问题，是否有计划让chatglm支持视觉理解？

也欢迎大家提供和讨论可行的方案。

YIZXIY commented 1 year ago

这个不错

ZhengQinLai commented 1 year ago

@feizc 你好！可以分享一下遇到了什么问题吗？

zhangch9 commented 1 year ago

VisualGLM-6B支持图像输入，欢迎体验。