PaddlePaddle / PaddleMIX

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.
Apache License 2.0
238 stars 100 forks source link
aigc blip2 clip controlnet dit eva-clip image-to-text llava minigpt4 multimodal ppdiffusers qwen-vl sd-xl sora stable-diffusion stablevideodiffusion text-to-image text-to-video



English Document

简介

PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。提供开箱即用的开发体验,同时满足开发者灵活定制需求,探索通用人工智能。

最新进展

2024.04.17 发布 PPDiffusers v0.24.0

2023.10.7 发布 PaddleMIX v1.0

2023.7.31 发布 PaddleMIX v0.1

主要特性

任务展示

https://github.com/PaddlePaddle/PaddleMIX/assets/29787866/8d32722a-e307-46cb-a8c0-be8acd93d2c8

安装

  1. 环境依赖
    pip install -r requirements.txt

关于PaddlePaddle安装的详细教程请查看Installation

注:ppdiffusers部分模型需要依赖 CUDA 11.2 及以上版本,如果本地机器不符合要求,建议前往 AI Studio 进行模型训练、推理任务。

如果希望使用bf16训练推理,请使用支持bf16的GPU,如A100。

  1. 手动安装
    
    git clone https://github.com/PaddlePaddle/PaddleMIX
    cd PaddleMIX
    pip install -e .

ppdiffusers 安装

cd ppdiffusers pip install -e .



## 教程

- [快速开始](applications/README.md/#快速开始)
- [训练微调](paddlemix/tools/README.md)
- [推理部署](deploy/README.md)

## 特色应用

1. 艺术风格二维码模型

<div align="center">
<img src="https://github.com/PaddlePaddle/Paddle/assets/22989727/ba091291-a1ee-49dc-a1af-fc501c62bfc8" height = "300",caption='' />
<p>体验专区: https://aistudio.baidu.com/community/app/1339</p>
</div>

2. Mix叠图

<div align="center">
<img src="https://github.com/PaddlePaddle/Paddle/assets/22989727/a71be5a0-b0f3-4aa8-bc20-740ea8ae6785" height = "300",caption='' />
<p>体验专区: https://aistudio.baidu.com/community/app/1340</p>
</div>

## 模型库

<table align="center">
  <tbody>
    <tr align="center" valign="center">
      <td>
        <b>多模态预训练</b>
      </td>
      <td>
        <b>扩散类模型</b>
      </td>
    </tr>
    <tr valign="top">
      <td>
        <ul>
        </ul>
          <li><b>图文预训练</b></li>
        <ul>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/evaclip">EVA-CLIP</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/coca">CoCa</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/clip">CLIP</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/blip2">BLIP-2</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/minigpt4">miniGPT-4</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/visualglm">VIsualGLM</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/qwen_vl">qwen_vl</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/llava">llava</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/cogvlm">CogVLM && CogAgent</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/internlm_xcomposer2">InternLM-XComposer2</a></li>
      </ul>
      </ul>
          <li><b>开放世界视觉模型</b></li>
        <ul>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/groundingdino">Grounding DINO</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/sam">SAM</a></li>
      </ul>
      </ul>
          <li><b>更多模态预训练模型</b></li>
        <ul>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/imagebind">ImageBind</a></li>
      </ul>
      </td>
      <td>
        <ul>
        </ul>
          <li><b>文生图</b></li>
        <ul>
           <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/examples/stable_diffusion">Stable Diffusion</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/examples/controlnet">ControlNet</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/examples/text_to_image_laion400m">LDM</a></li>
            <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/ppdiffusers/pipelines/unidiffuser">Unidiffuser</a></li>
        </ul>
        </ul>
          <li><b>文生视频</b></li>
        <ul>
           <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/ppdiffusers/pipelines/lvdm">LVDM</a></li>
        </ul>
        </ul>
          <li><b>音频生成</b></li>
        <ul>
           <li><a href="https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/ppdiffusers/pipelines/audioldm">AudioLDM</a></li>
        </ul>
      </td>
    </tr>
  </tbody>
</table>

更多模型能力,可参考[模型能力矩阵](./paddlemix/examples/README.md)
## 许可证书

本项目的发布受Apache 2.0 license许可认证。