Tencent / OpenSourceTalent

143 stars 15 forks source link

2024腾讯犀牛鸟开源人才培养计划—HunyuanDiT #51

Open tencent-adm opened 1 month ago

tencent-adm commented 1 month ago

腾讯犀牛鸟开源人才培养计划

欢迎广大高校学子加入2024腾讯犀牛鸟开源人才培养计划!腾讯犀牛鸟开源人才培养计划面向全国高校学生发布实践及研学项目,由教育部计算机类专业教学指导委员会、教育部软件工程专业教学指导委员会、教育部电子信息类专业教学指导委员会作为联合指导单位,腾讯开源和腾讯高校合作联合主办,表现优异的高校学生将有机会获得腾讯颁发的荣誉证书、现金奖励以及腾讯特色礼包。

期待同学们在本次研学旅程中,和腾讯一起探索未知、学习技术,让开源伴你成长,收获满满一夏!

更多项目信息请看:腾讯开源活动官网腾讯开源研学基地

项目简介

我们提出了混元DiT,一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。目前已对外开放技术报告、工程代码、加速框架、插件生态、基础模型&标签模型等。

项目导师

qinglinlu 腾讯高级算法总监 zhiminli 腾讯高级算法研究员 jarvizhang 腾讯高级算法研究员

导师寄语

我非常高兴地向大家介绍我们的项目——混元DiT,这是一个基于Diffusion transformer的文本到图像生成模型,具有中英文细粒度理解能力。这个项目不仅能够提供一种创新的文生图技术解决方案,而且能够为大家提供一个学习、交流和成长的平台。无论你是一个有经验的开发者,还是一个热衷于探索新技术的探索者,我都热烈欢迎你加入我们的项目。 让我们一起携手,共同推动混元DiT项目的发展,以我们的技术和热情,为开源社区和技术进步做出我们的贡献。 期待与你们在这个旅程中共同进步!

培养概览

1️⃣ 参与“腾讯开源基础课程” 完成考试可获得《腾讯开源研学结课证书》

2️⃣ 参与“腾讯开源issue实战” 完成任意issue即可获得专属《腾讯开源实战证书》+ 腾讯周边精美礼包一套。其中issue难度对应礼包大小

3️⃣ 参与“腾讯开源课题实战” 任务奖金从6K、8K到12K不等、腾讯犀牛鸟开源人才培养研学专属《优秀学生证书》、全球限量《腾讯开源贡献者证书》

如何贡献

参与“腾讯混元DiT issue实战”

进入“研学基地-issue营地”,选择发布方“混元DiT" Issue 任务,认领和完成它。腾讯混元DiT于7月2日正式开放 issue ,学生可无门槛参与和认领,欢迎共建共创!

  1. 如果你愿意解决issue,请在腾讯开源研学基地领取你感兴趣的混元DiT issue
  2. 请将混元DiT repo Fork 到你个人的仓库下
  3. 请参考验收标准,在个人仓库解决完对应的任务后,提交 PR 至混元DiT仓库
  4. PR提交后,项目导师将进行Code Review, PR 被合并后即视为任务完成
  5. 如有任何疑问,您可在研学基地报名后,加入本次混元导师微信群沟通,入群请备注”中文名&GitHubID“确认报名身份。导师将集中答疑 image

参与“腾讯开源课题实战”

时间安排:6月28日至7月28日为活动报名期,8月12日公布入围名单,8月12日至10月12日为课题实战期,通过筛选的学生即可参与此模块

开源课题实战 基于混元DiT的文生图项目优化

项目简介 我们的开源项目,是一个基于Diffusion transformer的文本到图像生成模型,它可以帮助大家更好地理解和应用业界最前沿的文生图大模型。我们希望通过这个课题实战,让更多的同学熟悉我们的代码,了解基于dit的文生图的原理以及算法工程的细节。最重要的是,我们希望通过你们的努力,能够极大地提升模型的易用性。

项目目标 我们希望从以下两个方面提升易用性:

算法优化:降低工程使用成本。我们希望可以提出新的算法/工程优化,可以进一步降低训练/推理所需显存,以及进一步提升训练/推理速度。包括但不限于蒸馏、量化、稀疏、LCM、hyper sd等加速策略。

工程优化:一键完成环境部署。我们希望可以在多种消费级显卡上进行部署,例如3090,4090,a6000,我们也希望能在windows/mac/ubuntu等平台一键部署,尽量降低工程的启动门槛。

联系导师

qinglinlu@tencent.com zhiminli@tencent.com jarvizhang@tencent.com

💁🏻‍♀️ 如有项目任何疑问,欢迎加入腾讯开源犀牛鸟官方QQ群859260607,期待你来!

tencent-adm commented 3 weeks ago

🥳 欢迎同学共建共创腾讯混元DiT,此次我们提出如下8个issue,从文档翻译到技术实现,全部为现网待解决问题,欢迎大家挑战与认领。

待解决问题1:

技术文档翻译:readme的“环境配置”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“环境配置”部分: 📜 Requirements 🛠 Dependencies and Installation 🧱 Download Pretrained Models

验收标准:

待解决问题2:

技术文档翻译:readme的“训练”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“训练”部分 : 🚚 Training Data Preparation Full Parameter Training LoRA

验收标准:

待解决问题3:

技术文档翻译:readme的“推理”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“推理”部分: 🔑 Inference 6GB GPU VRAM Inference Using Gradio Using Diffusers Using Command Line More Configurations Using ComfyUI

验收标准:

待解决问题4:

技术文档翻译:readme的“功能应用”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“功能应用”部分 : 🏗️ Adatper ControlNet 🎨 Hunyuan-Captioner 🚀 Acceleration (for Linux) 🔗 BibTeX

验收标准:

待解决问题5:

优化混元DiT模型启动配置流程(中级难度)

问题描述:

优化模型启动配置流程:熟悉HunyuanDiT的repo,优化参数配置文件。让用户可以清晰的通过参数配置方式启动模型训练。可参考成熟的开源项目,例如mmdetection。

验收标准:

提交PR合入代码仓库

待解决问题6:

为混元DiT增加一个设置,在训练时不使用T5 encoder(中级难度)

问题描述:

为混元DiT增加一个设置,在训练时不使用T5 encoder ,具体参见社区issue出处

验收标准:

提交PR合入代码仓库

待解决问题7:

为混元DiT开发开箱即用的训练、推理配置环境(高级难度)

问题描述:

期望帮助混元DiT优化训练部署: 开发开箱即用的训练、推理配置环境。尽量支持更多的硬件版本cuda11/12、操作平台windows/wsl/mac os。环境尽可能简洁,提升整体repo易用性。

验收标准:

提交PR合入代码仓库

待解决问题8:

让混元DiT支持webui平台(高级难度)

问题描述:

期望帮助混元DiT适配社区平台webui:尽量支持webui上sd的功能生态

验收标准:

提交PR合入代码仓库

yhyhdyb commented 3 weeks ago

凑个热闹

donglinzhou commented 3 weeks ago

领取issue-待解决问题1