alipay / Ant-Multi-Modal-Framework

Research Code for Multimodal-Cognition Team in Ant Group
Creative Commons Attribution 4.0 International
60 stars 2 forks source link
image-text-retrieval multimodal-learning multimodal-llm video-editing video-text-retrieval

蚂蚁多模态框架

Read this in English.

简介

本代码库包含蚂蚁多模态认知团队在AntMMF中集成的多模态方向研究代码。AntMMF多模态框架封装了包括数据集管理、数据处理、训练流程、模型和模块在内的标准多模态功能,同时支持这些组件的自定义扩展。

News

研究方向

视频-文本预训练

视频-文本检索

视频编辑

环境设置

克隆项目代码到本地

git clone https://github.com/alipay/Ant-Multi-Modal-Framework

安装项目依赖

cd antmmf pip install -r requirements.txt


## Citations
如果您觉得AntMMF对您的工作有帮助,请考虑引用:

@misc{qp2023AntMMF, author = {Qingpei, Guo and Xingning, Dong and Xiaopei, Wan and Xuzheng, Yu and Chen, Jiang and Xiangyuan, Ren and Kiasheng, Yao and Shiyu, Xuan}, title = {AntMMF: Ant Multi-Modal Framework}, howpublished = {\url{https://github.com/alipay/Ant-Multi-Modal-Framework}}, year = {2023} }



## License

本项目根据[Apache 2.0](https://github.com/apache/.github/blob/main/LICENSE) 授权,在正确引用出处的情况下,允许在任何媒介中无限制地使用、分发和复制。

## 致谢
我们的代码基于[FAIR mmf](https://github.com/facebookresearch/mmf),感谢作者的重要开源贡献。

## 联系我们

:raising_hand: 如需帮助或解决与本代码库相关的问题,请提交issue。

:star: 我们正在招聘,如果您对我们的工作感兴趣,请通过`qingpei.gqp@antgroup.com`联系我们。