高精度及多图问题

dingtine commented 1 week ago

您好，对比了多家的vlm， minicpm-v做的还不错。但是 1高精度图效果不行，你们为什么没采用5B的图像编码器呢？ 2为什么没支持多图呢？

能从技术、效果解答我的疑问吗

LDLINGLINGLING commented 1 week ago

我现在根据个人理解来回答您的问题：

您说的高精度图片是多高精度，因为高精度是一个相对概念，minicpmv大概支持1300*1300左右无压缩的解码。
没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行，使用5b的图像编码器将导致模型过大，特别是在图像进行切分后，对解码速度有较大的影响。
没有支持多图的一个原因可能是将占用语言模型过多的token，因为在现在的模型中一张高清图最多占用1000个token左右，多张便会占用更多的token。

dingtine commented 1 week ago

感谢回复！我们有一些超高清的图片，上面有图文，1344的精度还差一点。

如果是在端上部署，图片的编码确实只能采用400m；如果我们能提供一些2B的云端448精度模型就更好了。

另外，我们可以把历史图片做resize，不做切分，这样8k的llm能支持更多图片，是否可行能。

因为测下来minicpm不错，所以期待你们做的更好，更方便直接拿过来用。谢谢

dingtine commented 1 week ago

我现在根据个人理解来回答您的问题：

您说的高精度图片是多高精度，因为高精度是一个相对概念，minicpmv大概支持1300*1300左右无压缩的解码。

没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行，使用5b的图像编码器将导致模型过大，特别是在图像进行切分后，对解码速度有较大的影响。

没有支持多图的一个原因可能是将占用语言模型过多的token，因为在现在的模型中一张高清图最多占用1000个token左右，多张便会占用更多的token。

感谢回复！我们有一些超高清的图片，上面有图文，1344的精度还差一点。

如果是在端上部署，图片的编码确实只能采用400m；如果我们能提供一些2B的云端448精度模型就更好了。

另外，我们可以把历史图片做resize，不做切分，这样8k的llm能支持更多图片，是否可行能。

因为测下来minicpm不错，所以期待你们做的更好，更方便直接拿过来用。谢谢

LDLINGLINGLING commented 1 week ago

收到您的反馈，您的意见对我们至关重要。

RobotiX101 commented 1 week ago

我现在根据个人理解来回答您的问题：

您说的高精度图片是多高精度，因为高精度是一个相对概念，minicpmv大概支持1300*1300左右无压缩的解码。

没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行，使用5b的图像编码器将导致模型过大，特别是在图像进行切分后，对解码速度有较大的影响。

没有支持多图的一个原因可能是将占用语言模型过多的token，因为在现在的模型中一张高清图最多占用1000个token左右，多张便会占用更多的token。

感谢回复！我们有一些超高清的图片，上面有图文，1344的精度还差一点。

如果是在端上部署，图片的编码确实只能采用400m；如果我们能提供一些2B的云端448精度模型就更好了。

另外，我们可以把历史图片做resize，不做切分，这样8k的llm能支持更多图片，是否可行能。

因为测下来minicpm不错，所以期待你们做的更好，更方便直接拿过来用。谢谢

请问该如何实现多图呢？单纯把编码过的图片 append 到 content 上，模型无法识别

RobotiX101 commented 1 week ago

收到您的反馈，您的意见对我们至关重要。

请问有没有什么办法可以实现多图传入呢？

LDLINGLINGLING commented 4 days ago

因为训练都是单图的，能够传入多图，估计效果也不理想

OpenBMB / MiniCPM-V

高精度及多图问题 #324