Closed xy1565838851 closed 2 months ago
您好,这个例子是我们在测试monkey时发现的?您推理所用的模型时textmonkey吧,请参考我们给出的textmonkey的demo代码进行测试。
您好,这个例子是我们在测试monkey时发现的?您推理所用的模型时textmonkey吧,请参考我们给出的textmonkey的demo代码进行测试。
您好,我参考你们的demo代码进行测试。当需要的回答较短时,可以正确输出,也就是按照你们的示例可以输出“third floor”的结果,但如果让他输出整张图像的所有text,就会出现不符合预期的结果。是无法输出长结果吗?
您好,这个例子是我们在测试monkey时发现的?您推理所用的模型时textmonkey吧,请参考我们给出的textmonkey的demo代码进行测试。
您好,请问这些参数怎么设置可以输出一个较好的结果?
我们的设置是这样子的。
from monkey_model.modeling_textmonkey import TextMonkeyLMHeadModel from monkey_model.tokenization_qwen import QWenTokenizer from monkey_model.configuration_monkey import MonkeyConfig
if name == "main": checkpoint_path = "/nas_works/408972/LLM/Monkey/Monkey-Chat" input_image = "0.jpg" input_str = "Read all the text in the image." device_map = "cuda"
Create model