THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型
Apache License 2.0
40.46k stars 5.19k forks source link

[Feature] 支持视觉信息输入和理解,类似于GPT-4 #425

Closed feizc closed 1 year ago

feizc commented 1 year ago

Is your feature request related to a problem? Please describe.

通过微调模型,支持视觉信息输入,类似于GPT-4。

目前已经在LLaMA语言模型上进行尝试,且结果不错。 参考:https://github.com/feizc/Visual-LLaMA

在迁移到chatglm的时候遇到问题,是否有计划让chatglm支持视觉理解?

也欢迎大家提供和讨论可行的方案。

YIZXIY commented 1 year ago

这个不错

ZhengQinLai commented 1 year ago

@feizc 你好!可以分享一下遇到了什么问题吗?

zhangch9 commented 1 year ago

VisualGLM-6B支持图像输入,欢迎体验。