Open dingtine opened 1 week ago
我现在根据个人理解来回答您的问题:
感谢回复! 我们有一些超高清的图片,上面有图文,1344的精度还差一点。
如果是在端上部署,图片的编码确实只能采用400m;如果我们能提供一些2B的云端448精度模型就更好了。
另外,我们可以把历史图片做resize,不做切分,这样8k的llm能支持更多图片,是否可行能。
因为测下来minicpm不错,所以期待你们做的更好,更方便直接拿过来用。 谢谢
我现在根据个人理解来回答您的问题:
您说的高精度图片是多高精度,因为高精度是一个相对概念,minicpmv大概支持1300*1300左右无压缩的解码。
没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行,使用5b的图像编码器将导致模型过大,特别是在图像进行切分后,对解码速度有较大的影响。
没有支持多图的一个原因可能是将占用语言模型过多的token,因为在现在的模型中一张高清图最多占用1000个token左右,多张便会占用更多的token。
感谢回复! 我们有一些超高清的图片,上面有图文,1344的精度还差一点。
如果是在端上部署,图片的编码确实只能采用400m;如果我们能提供一些2B的云端448精度模型就更好了。
另外,我们可以把历史图片做resize,不做切分,这样8k的llm能支持更多图片,是否可行能。
因为测下来minicpm不错,所以期待你们做的更好,更方便直接拿过来用。 谢谢
收到您的反馈,您的意见对我们至关重要。
我现在根据个人理解来回答您的问题:
- 您说的高精度图片是多高精度,因为高精度是一个相对概念,minicpmv大概支持1300*1300左右无压缩的解码。
- 没有采用5b图像编码的原因是minicpm系列模型的目标是在端侧运行,使用5b的图像编码器将导致模型过大,特别是在图像进行切分后,对解码速度有较大的影响。
- 没有支持多图的一个原因可能是将占用语言模型过多的token,因为在现在的模型中一张高清图最多占用1000个token左右,多张便会占用更多的token。
感谢回复! 我们有一些超高清的图片,上面有图文,1344的精度还差一点。
如果是在端上部署,图片的编码确实只能采用400m;如果我们能提供一些2B的云端448精度模型就更好了。
另外,我们可以把历史图片做resize,不做切分,这样8k的llm能支持更多图片,是否可行能。
因为测下来minicpm不错,所以期待你们做的更好,更方便直接拿过来用。 谢谢
请问该如何实现多图呢?单纯把编码过的图片 append 到 content 上,模型无法识别
收到您的反馈,您的意见对我们至关重要。
请问有没有什么办法可以实现多图传入呢?
因为训练都是单图的,能够传入多图,估计效果也不理想
您好,对比了多家的vlm, minicpm-v做的还不错。 但是 1高精度图效果不行,你们为什么没采用5B的图像编码器呢? 2为什么没支持多图呢?
能从技术、效果解答我的疑问吗