OpenBMB / MiniCPM-V

MiniCPM-Llama3-V 2.5: A GPT-4V Level Multimodal LLM on Your Phone
Apache License 2.0
7.98k stars 558 forks source link

Minicpm-v可以只用文本输入,不使用图片输入吗? #218

Closed jhrsya closed 1 month ago

tc-mb commented 1 month ago

模型是肯定可以的。只我们放的网页demo暂时还没有支持只用文本输入。 当然,你可以改写我们开源的代码,变成可以只用文本输入形式。

jhrsya commented 1 month ago

模型是肯定可以的。只我们放的网页demo暂时还没有支持只用文本输入。

当然,你可以改写我们开源的代码,变成可以只用文本输入形式。

好的谢谢

DePengW commented 1 month ago

你好,我看训练代码dataset里的getitem,写的是image = Image.open(self.raw_data[i]["image"]).convert("RGB"),这个貌似是只能处理带图片的数据。想请问一下,如果是混合纯文本的数据,代码应该怎么改呢。目前是创建了一个dummy_image,不知道这样是否合理

dataset.py 中的SupervisedDataset类

def getitem(self, i) -> Dict[str, torch.Tensor]: if "image" in self.raw_data[i]: image = Image.open(self.raw_data[i]["image"]).convert("RGB") else: image_array = np.zeros((3, 224, 224), dtype=np.uint8) image_array = np.transpose(image_array, (1, 2, 0)) image = Image.fromarray(image_array)