OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.01k stars 418 forks source link

请问在实现image caption上有什么建议吗 #317

Open luoxinggyyy opened 1 month ago

luoxinggyyy commented 1 month ago

微调自己的数据集(非自然语言),图片对应两三句话的那种数据类型