-
感谢提供的项目idea
1.if only text input , which is equivalent to Mindsearch?
2.如果VLM的能力经过微调或者是更大的vlm是否可能替代掉ground dino? 有没有考虑提供分离大模型服务的后端API?
3.搜索模型使用的是Internlm2原因是否只是因为这个模型经过相关数据训练, 这个几个步骤有没有可能可以合并为一个VL…
-
当前版本 v0.20.0
观察下来当下似乎只有画面变动比较大的时候,才会调用 ocr+ vlm 提取图片中的信息。
vlm 非常消耗资源,这个逻辑可以理解。
但 ocr 在现代的设备上占用资源应该没那么高,能否允许用户自行决定是否对每一张图片都进行离线 ocr?或者设定一定的相似度阈值也可以。
----
典型场景就是:我回溯网页、文档,可能只记得一个关键词,这个时候需要有 …
-
With continuous_training on bunny VLM, do we still need to specify vision_tower path?
If we do point to siglip path, will it use that untrained weight instead of vision_tower that comes with bunny vl…
-
This issue tracks the progress on improving the handling and testing of Vision-Language Models. The main goals are to enhance/enable generation tests, handle other generation techniques like assisted …
-
## タイトル: Critic-V:VLM批評家がマルチモーダル推論におけるVLMの誤りを捕捉する
## リンク: https://arxiv.org/abs/2411.18203
## 概要:
視覚言語モデル(VLM)は、マルチモーダル推論タスクにおいて目覚ましい進歩を遂げてきました。しかし、幻覚的な画像理解や洗練されていない推論経路などの問題により、不正確または無関係な応答を生成するこ…
-
Title.
https://x.com/mervenoyann/status/1831409380040044762
-
### Feature request
Hi! I’d like to request support for reinforcement learning with DPO for the MiniCPM-V model. I'm not sure if the current state of this repository enables for this vision model to …
-
Hello.
I wanted to try out dsrag on a pdf that I have.
However, I had/have a couple of problems:
1) After installing dsrag with pip, I still had to manually install `vertexai`, `google.generativea…
-
Traceback (most recent call last):
File "/root/autodl-tmp/minimind-v-master/2-sft_vlm.py", line 229, in
train_epoch(epoch, wandb)
File "/root/autodl-tmp/minimind-v-master/2-sft_vlm.py", li…
-
I am trying the vlm_ptq by following the readme in vlm_ptq folder, and when I call a command "scripts/huggingface_example.sh --type llava --model llava-1.5-7b-hf --quant fp8 --tp 8", (--deployment com…