OpenBMB / MiniCPM-V

MiniCPM-Llama3-V 2.5: A GPT-4V Level Multimodal LLM on Your Phone
Apache License 2.0
7.98k stars 558 forks source link

高精度及多图问题 #324

Open dingtine opened 1 week ago

dingtine commented 1 week ago

您好,对比了多家的vlm, minicpm-v做的还不错。 但是 1高精度图效果不行,你们为什么没采用5B的图像编码器呢? 2为什么没支持多图呢?

能从技术、效果解答我的疑问吗

LDLINGLINGLING commented 1 week ago

我现在根据个人理解来回答您的问题:

  1. 您说的高精度图片是多高精度,因为高精度是一个相对概念,minicpmv大概支持1300*1300左右无压缩的解码。
  2. 没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行,使用5b的图像编码器将导致模型过大,特别是在图像进行切分后,对解码速度有较大的影响。
  3. 没有支持多图的一个原因可能是将占用语言模型过多的token,因为在现在的模型中一张高清图最多占用1000个token左右,多张便会占用更多的token。
dingtine commented 1 week ago

感谢回复! 我们有一些超高清的图片,上面有图文,1344的精度还差一点。

如果是在端上部署,图片的编码确实只能采用400m;如果我们能提供一些2B的云端448精度模型就更好了。

另外,我们可以把历史图片做resize,不做切分,这样8k的llm能支持更多图片,是否可行能。

因为测下来minicpm不错,所以期待你们做的更好,更方便直接拿过来用。 谢谢

dingtine commented 1 week ago

我现在根据个人理解来回答您的问题:

  1. 您说的高精度图片是多高精度,因为高精度是一个相对概念,minicpmv大概支持1300*1300左右无压缩的解码。

  2. 没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行,使用5b的图像编码器将导致模型过大,特别是在图像进行切分后,对解码速度有较大的影响。

  3. 没有支持多图的一个原因可能是将占用语言模型过多的token,因为在现在的模型中一张高清图最多占用1000个token左右,多张便会占用更多的token。

感谢回复! 我们有一些超高清的图片,上面有图文,1344的精度还差一点。

如果是在端上部署,图片的编码确实只能采用400m;如果我们能提供一些2B的云端448精度模型就更好了。

另外,我们可以把历史图片做resize,不做切分,这样8k的llm能支持更多图片,是否可行能。

因为测下来minicpm不错,所以期待你们做的更好,更方便直接拿过来用。 谢谢

LDLINGLINGLING commented 1 week ago

收到您的反馈,您的意见对我们至关重要。

RobotiX101 commented 1 week ago

我现在根据个人理解来回答您的问题:

  1. 您说的高精度图片是多高精度,因为高精度是一个相对概念,minicpmv大概支持1300*1300左右无压缩的解码。
  2. 没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行,使用5b的图像编码器将导致模型过大,特别是在图像进行切分后,对解码速度有较大的影响。
  3. 没有支持多图的一个原因可能是将占用语言模型过多的token,因为在现在的模型中一张高清图最多占用1000个token左右,多张便会占用更多的token。

感谢回复! 我们有一些超高清的图片,上面有图文,1344的精度还差一点。

如果是在端上部署,图片的编码确实只能采用400m;如果我们能提供一些2B的云端448精度模型就更好了。

另外,我们可以把历史图片做resize,不做切分,这样8k的llm能支持更多图片,是否可行能。

因为测下来minicpm不错,所以期待你们做的更好,更方便直接拿过来用。 谢谢

请问该如何实现多图呢?单纯把编码过的图片 append 到 content 上,模型无法识别

RobotiX101 commented 1 week ago

收到您的反馈,您的意见对我们至关重要。

请问有没有什么办法可以实现多图传入呢?

LDLINGLINGLING commented 4 days ago

因为训练都是单图的,能够传入多图,估计效果也不理想