InternLM / InternLM-XComposer

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
2.06k stars 127 forks source link

demo获得的结果 比使用代码获得的结果要好,如何解决? #196

Open shams2023 opened 4 months ago

shams2023 commented 4 months ago

image

Using a demo to capture pedestrian images that I have collected can provide good text descriptions. So, how can I use your code to obtain text descriptions as good as a demo? I am looking forward to your answer to help me solve the problems I am facing. Thank you! (使用demo对我所收集到的行人图像可以获得较好的文本描述(caption),那么请问,使用你的代码该如何获得和demo一样好的文本描述呢?非常期待你的回答来帮我解决我所面临的问题,谢谢!)

panzhang0212 commented 4 months ago

The demo and the code share the similiar implementation details . Could you turn off the Do_sample, and show the difference of outputs from code and demo ?

shams2023 commented 4 months ago

演示和代码共享相似的实现细节。您能否关闭 Do_sample,并显示代码和演示的输出差异?

image 代码演示的结果: 这张图片显示了一个模糊的人影,他们似乎正在走路。这个人穿着一件黑色外套和一条红色裙子,脚上穿着一双红鞋。他们还拿着一个文件夹,看起来像是在工作或学习。

Demo演示结果: 这张图片显示了一个模糊的人影,他们似乎正在走路。这个人穿着一件黑色外套和一条带有红色条纹的裤子,脚上穿着一双红色鞋子。他们还拿着一个文件夹,似乎正在阅读或查看其中的内容。