PaddlePaddle / PaddleMIX

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.
Apache License 2.0
366 stars 153 forks source link

# PaddleMIX 快乐开源活动 (2024 Q3) #644

Closed LokeZhou closed 1 month ago

LokeZhou commented 4 months ago

PaddleMIX 快乐开源活动

旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中,帮助社区修复 bug 或贡献 feature,加入开源、共建飞桨。

热身任务

跑通 Stable-Diffusion 的训练推理流程,通过完成本任务,可以收获对时下火热的文生图SD模型的hands on感受与理解,也可以快速上手PaddleMIX。

mentor:@LokeZhou

命题任务

命题任务是我们总结整理大模型套件的需求得出,每个任务上标注了任务难度,大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉

任务名称 难度 任务描述
InternLM-XComposer-2的4khd 推理和2.5版本推理 🌟 InternLM-XComposer2-4KHD推理对齐,和 InternLM-XComposer2.5-7B 推理对齐
cambrian-8B推理 🌟 8B模型推理对齐,在ScienceQA-Img上评估指标达到80.4
DeepSeek-VL 推理 🌟 7B模型1.3B模型推理对齐
MiniCPM-V 2.6 推理以及SFT训练 🌟 🌟 MiniCPM-V-2_6推理对齐,以及SFT训练
Ovis系列模型推理 🌟 Ovis1.6-Gemma2-9B推理对齐
GOT-OCR2_0 模型推理 🌟 GOT-OCR2_0推理对齐
LLaVA-OneVision 模型推理 🌟 llava-onevision-qwen2-0.5b-ovllava-onevision-qwen2-7b-ovllava-onevision-qwen2-7b-ov-chat推理对齐
Molmo 模型推理 🌟 Molmo-7B-D-0924推理对齐
Aria 模型推理 🌟 Aria推理对齐
Chameleon模型推理 🌟 chameleon-7b推理对齐
Emu3 多模态理解和生成推理 🌟 Emu3-ChatEmu3-Gen 均推理对齐
Janus 多模态理解和生成推理 🌟 Janus推理对齐
OpenSora 升级1.2 🌟🌟 🌟 ppdiffusers已经完成opensora的基础训练和推理,需要升级到1.2
Cogview3推理 🌟 Cogview3-plus推理对齐,可参考diffusers-cogvidw3
FLUX推理 🌟 FLUX推理对齐,可参考diffusers-flux
添加llava模型单测 🌟 提交test_llava.py单测脚本,需要测试当前llava所有系列模型
datacopilot ops添加基于clip的图文相关性 🌟 正确输出score;给出正负样本示例
datacopilot ops添加基于blip的图文相关性 🌟 datacopilot ops添加基于blip的图文相关性
datacopilot 添加基于work的数据分析功能 <eg. 数量;分布...> 🌟 正确输出表单;尽可能多的分析维度;给出示例
datacopilot 添加基于token的数据分析功能 <eg. 数量;分布...> 🌟 正确输出表单;尽可能多的分析维度;给出示例
datacopilot 添加基于LDA主题聚类的T-SNE可视化 🌟🌟 正确输出可视化图;给出示例
datacopilot添加数据语言判断的模型 🌟 正确输入数据的语言;可包含多种
datacopilot添加数据生成的模板 🌟 给出参考论文或代码;不少于3个,越多越好
datacopilot添加数据质量评价的模板 🌟 给出参考论文或代码;不少于3个,越多越好
datacopilot添加多个维度的数据分析 <比如找到. 描述 颜色;形状;位置等样本> 🌟 保证单个维度分析的完备性;不少于3各维度;越多越好
datacopilot添加基于SimHash的文本级别样本去重 🌟 正确输出hash值;给出正负样本示例
datacopilot添加基于MinHashLSH的文本级别样本去重 🌟 正确输出hash值;给出正负样本示例
AIzealotwu commented 4 months ago

认领OpenSora 升级1.2

sanbuphy commented 4 months ago

认领 datacopilot ops添加基于clip的图文相关性 datacopilot 添加基于LDA主题聚类的T-SNE可视化

yinfan98 commented 4 months ago

认领 deepseek vl 7b 推理对齐

xue-yun-liang commented 3 months ago

认领 InternLM-XComposer-2 4khd 推理对齐

Xingyyy01 commented 3 months ago

认领 datacopilot ops添加基于blip的图文相关性