Tencent / OpenSourceTalent

143 stars 15 forks source link

#2021Tencent Rhino-bird Open-source Training Program—Angel# #4

Closed tencent-adm closed 1 month ago

tencent-adm commented 3 years ago

腾讯犀牛鸟开源人才培养计划 Tencent Rhino-bird Open-source Training Program 为响应国家十四五规划的开源战略,腾讯于2021年5月发布“首届腾讯犀牛鸟开源人才培养计划”,希望企业界和教育界形成合力,打造面向高校学生的开源课程和开源实践培养方案,培育开源人才,普及开源文化,助力开源人才生态的发展。

首届项目由教育部计算机教学指导委员会、教育部软件工程教学指导委员会、中国信息通信研究院作为联合指导单位,包括开源基础培训、开源进阶研学、开源项目实战三个环节,项目涉及云原生、微服务、容器、AI、大数据、前端、物联网/边缘计算等多项技术热点。

各位同学报名即可参加线上开源系列课程,学习开源知识,对话学界及产业界大咖。其中入选开源项目实战的学生将在导师的一对一指导下,利用暑假开展编程实战,并有机会获得腾讯开源贡献者证书(目前全球只发出了10+张)。

更多项目信息请看官网:https://opensource.tencent.com/summer-of-code

项目简介

Angel是腾讯研发并开源的面向企业级应用的高性能分布式机器学习平台,支持特征工程、模型构建、参数训练、AutoML、模型服务Serving等全栈机器学习服务,提供机器学习、深度学习、图神经网络等多种算法,支持级万亿级超大规模参数模型的训练,已在生产业务系统中大规模部署。

Angel:https://github.com/Angel-ML/angel PyTorch on Angel:https://github.com/Angel-ML/PyTorch-On-Angel Angel简介、设计、算法文档:https://github.com/Angel-ML/angel/blob/master/README.md

项目导师

欧阳文、李晓森,Angel开源项目技术负责人

导师寄语

Angel是腾讯自研的高性能分布式机器学习和图计算平台。通过学习这个项目,你将了解顶级分布式机器学习平台架构设计原理以及AI算法落地细节,轻松玩转机器学习和图计算,对之后的学习和工作都大有益处。

编程任务

(题目一)基于PyTorch On Angel实现S-GCN图神经网络算法; 参考论文 https://arxiv.org/pdf/1902.07153.pdf 内容: S-GCN通过简化GCN非线性计算从而提高训练速度,在许多超大规模图场景中得到了广泛应用。

预备知识: 1.S-GCN论文 https://arxiv.org/pdf/1902.07153.pdf
2.Java , Python, Scala 3.PyTorch /Spark / Angel

预期结果: 1.基于PyTorch On Angel实现S-GCN算法 2.在多种数据集如cora.cites上有高效的训练性能以及F1-Score等关键指标 3.文档和测试

收获: 1.理解图神经网络算法的实现逻辑,熟悉PyTorch、Angel、Spark等组件功能 2.分布式系统的性能优化实践经验

(题目二)基于PyTorch On Angel实现MMoE多任务学习算法模型 内容: MMoE模型可以从数据中学习建模任务间的相关性,在许多真实场景中得到大规模的应用,如在电影推荐中不仅推荐用户可能观看的电影,还需要优化用户对电影的喜爱程度的预估;结合两个任务推荐的电影,最有可能满足用户需求和推荐目的。

预备知识: 1.MMoE论文 https://dl.acm.org/doi/pdf/10.1145/3219819.3220007 2.Java , Python, Scala 3.PyTorch /Spark / Angel

预期结果: 1.基于PyTorch On Angel实现MMoE算法 2.在多种数据集(例如MMoE论文中的数据集)上有高效的训练性能、正确的AUC等关键指标 3.文档和测试

收获: 1.理解图神经网络算法的实现逻辑,熟悉PyTorch、Angel、Spark等组件功能 2.分布式系统的性能优化实践经验

联系导师: 欧阳文:gdpouyang@tencent.com 李晓森:hansenli@tencent.com