Open nkjulia opened 1 year ago
如题 从文章来看,相比MiniGPT4,在支持的模态上引入了音频维度,在LLM-Vicuna输出后增加了一个pipeline对齐实体在图像中的位置;
如题 从文章来看,相比MiniGPT4,在支持的模态上引入了音频维度,在LLM-Vicuna输出后增加了一个pipeline对齐实体在图像中的位置;