PFCCLab / Camp

飞桨护航计划集训营
18 stars 73 forks source link

[WeeklyReports] 2024.04.19~2024.05.10 周报汇总 #252

Closed AndSonder closed 4 months ago

AndSonder commented 6 months ago

[WeeklyReports] 2024.04.19~2024.05.10 周报汇总

请各位学员在本 issue 下以 comment 的形式填写周报摘要,ddl 本周五晚,格式示例如下:

### 姓名

xxx

### 本周工作

1. xxx
2. xxx

### 下周工作

1. xxx
2. xxx

### 详细周报链接:

- https://github.com/PFCCLab/Camp/pull/xxx

项目二:PIR 控制流专项

项目三:PIR Python API 升级及机制建设

项目四:动转静 SOT 模块 Python 3.12 支持

项目五:算子支持复数计算专项

项目六:模型迁移工具建设

项目七:框架 API 易用性提升

项目八:组合机制算子专项和机制建设

项目九:高阶微分的性能分析和优化

项目十:静态图半自动并行训练性能优化

项目十一:全自动并行架构升级

项目十二:科学计算领域拓展专项(DeePMD-kit、光学案例)

项目十三:科学计算领域拓展专项(超分重构方向)

项目十四:科学计算领域拓展专项(领域流体方向)

项目十五:科学计算领域拓展专项(领域气象方向)

项目十六:CINN 支持动态 Shape 专项(前端方向)

项目十八:CINN 静态 shape 下鲁棒性和性能优化

项目十九:CINN 支持动态 Shape 专项(后端规则升级)

项目二十:CINN 支持动态 Shape 专项 (后端模型扩量)

项目二十一:Paddle CMake 治理和编译优化

项目二十二:PaddleMIX 套件能力建设(文图方向)

项目二十三:PaddleMIX 套件能力建设(图文方向)

项目二十四:大模型训练稳定性和高效低价小模型快速收敛

项目二十六:推理 Pass & 融合算子优化

项目二十七:PaddleSpeech 套件能力建设

AndSonder commented 6 months ago

姓名

卢畅

实习项目

静态图半自动并行训练性能优化

本周工作

本周工作主要是编写 ZBV 编排代码,并在不同 memory limit 下进行测试以及将编排结果与官方实现对比。还对显存估计工具的问题进行了排查,并在不同配制下进行测试。

1. 解决Backward 阶段峰值显存估计偏差的问题

2. 在不同配置下估计显存

相关 PR:

3. 编写 ZBV 编排代码

初步完成 ZBV 编排的代码编写

相关 PR:

4. 编排结果与官方实现对比

下周工作

适配 vpp_degree > 2 的情况,完成 ZBV 编排代码的编写。修改分布式标记适配 ZBV 的 V 形编排。在 Llama2 上进行初步性能测试。

详细周报链接:

DUCH714 commented 6 months ago

姓名

DUCH714

本周工作

成功应用 Transolver 子模块代替GINO中的GNO模块,将压力的相对误差降低至 0.0260。

下周工作

尝试应用DrivAerNet

详细周报链接:

yulangz commented 6 months ago

姓名

Github ID: yulangz

实习项目

CINN子图鲁棒性和性能优化

本周工作

  1. CINN 故障修复

    1. 添加 DistributeFpnProposalsOpInferSymbolicShape、RoiAlignOpInferSymbolicShape,支持 FPN 模型子图的符号推导。PR: https://github.com/PaddlePaddle/Paddle/pull/63947
    2. 基于 gather 算子理解 CINN 中从符号推导到代码生成的全部流程。

下周工作

  1. 从 gather 算子出发,理解 CINN 的整体流程。

详细周报链接

https://github.com/PFCCLab/Camp/pull/256

zhaojiameng commented 6 months ago

姓名

赵加孟

本周工作

  1. 训练代码跑通
  2. paddlescience代码反向精度对齐

下周工作

  1. 残差损失精度对齐
  2. 整理仓库,提交PR

详细周报链接:

mattheliu commented 6 months ago

姓名

刘卓鑫

实习项目

PaddleSpeech 套件能力建设

本周工作

  1. 跑PaddleSpeech/Demos

下周工作

  1. 继续跑PaddleSpeech/Demos

详细周报链接:

zeroRains commented 6 months ago

姓名

卢林军

本周工作

  1. reduce_as op 实现complex64/128int8的支持
  1. 补充reduce_as op的中文文档
  1. reduce_as op的反向拆解

下周工作

  1. 探索sigmoid_cross_entropy_with_logits op中,pos_weight参数不为全1 Tensor时,拆解的反向计算和kernel的反向计算结果不一致的原因
  2. 修改reduce_as的中文文档
  3. 完善之前尚未merge的PR。

详细周报链接:

lshpku commented 6 months ago

姓名

梁书豪

本周工作

  1. 针对CUDA warp访存连续性提出一个新的Tile流程,并使用TVM验证了正确性

下周工作

  1. 在CINN后端TileFirstGeneralTactic中实现新的Tile流程

详细周报链接:

Yang-Changhui commented 6 months ago

姓名

Yang-Changhui

本周工作

  1. 完成earthformer技术文档的编写
  2. 实现tfno、uno、sfno网络的训练、验证、推理可视化功能

下周工作

  1. 根据导师意见,继续完善earthformer的技术文档
  2. 根据导师意见,修改neuraloperator模型的代码,以及相关文档的编写

相关pr:

huangjiyi commented 6 months ago

姓名

黄济懿

实习项目

PIR 控制流专项

本周工作

  1. 分析 PaddleDetection 中 ppyoloe_plus_crn_l_80e_coco 模型训练在 PIR 下出现的显存泄露问题并初步解决

下周工作

  1. 为 yield op 实现 instruction

详细周报链接:

gouzil commented 6 months ago

姓名

田川

本周工作

  1. 升级pybind11
  2. 解决了遗留已久的反向 Program 析构问题

下周工作

  1. PyFuncOp 迁移

详细周报链接:

NKNaN commented 6 months ago

姓名

李睿文

本周工作

  1. 针对 paddle.nn.functional.group_normpaddle.nn.GroupNorm 的功能增强
  2. 分析 paddle.distribution.Categoricaltorch.distributions.Categorical 不一致的地方
  3. 针对 paddle.nn.initializer.TruncatedNormal 的功能增强

下周工作

  1. 计划修改 paddle.nn.Layer 中的 stat_dict 方法:增加参数 keep_vars
  2. 计划修改 paddle.io.BatchSampler:升级 sampler 参数,支持任意可迭代类型
  3. 升级 paddle.add/sub/div/mul 等二元 API 以支持 python number 的任务,需进一步参考类型提升进行修改

详细周报链接:

Eddie-Wang1120 commented 6 months ago

姓名

王晋恒

实习项目

组合机制算子专项和机制建设

本周工作

  1. 学习动态shape相关知识

    • 了解算子拆解中动态shape的相关知识
  2. 进行算子拆解工作

下周工作

  1. 继续进行算子拆解工作

详细周报链接

CJ77Qi commented 6 months ago

姓名

Github-ID: Austin-00

实习项目

CINN 支持动态 Shape 专项 (后端规则升级)

本周工作

  1. 理清CINN LowertoAST 以及 Schedule 的整个pipeline过程

  2. 理清dy_shape_group_scheduler、tile_config、tile_first_general_tactic的动态Shape Scheduleconfig以及代码骨架调整逻辑,设计后续ScheduleConfig

  3. 了解并确定后续Searcher开发需求和大致技术路线

下周工作

  1. 对后续Searcher的接口进行补全,并继续迭代开发,完成PR合并

  2. 根据需求动态调整,进一步优化性能

详细周报链接

https://github.com/PFCCLab/Camp/pull/267

yinfan98 commented 6 months ago

姓名

尹帆

本周工作

  1. kernel精度对齐
  2. 重新实现int4 weight only kernel https://github.com/PaddlePaddle/Paddle/pull/64094

下周工作

  1. Llama3 RoPE kernel
  2. Llama3 GQA kernel

详细周报链接:

unseenme commented 6 months ago

姓名

Github ID: unseenme

本周工作

  1. 离线测试流程代码改进

  2. 离线测试与筛选

  3. 将有价值的用例提交到Paddle仓库

下周工作

  1. 继续离线测试

  2. 继续改进测试流程代码以进一步提高测试效率

详细周报链接:

silverling commented 6 months ago

姓名

凌少鹏

本周工作

下周工作

详细周报链接:

YibinLiu666 commented 6 months ago

姓名

YibinLiu666

本周工作

  1. 升级cumprod的功能,支持reverse与exclusive两个参数 https://github.com/PaddlePaddle/Paddle/pull/64022
  2. 使用双向cumprod修复 prod_grad 在x有0的时候x_grad出现nan的bug,https://github.com/PaddlePaddle/Paddle/pull/64127

下周工作

  1. 收尾cumprod升级pr。
  2. 修复双向cumprod实现prod_grad的bug
  3. 然后支持bmm复数complex类型

详细周报链接

https://github.com/PFCCLab/Camp/pull/271

lishuai-97 commented 6 months ago

姓名

李帅

Github ID: lishuai-97

本周工作

本周主要的工作为完善实验,构建XXX梯度裁剪算法论文框架,撰写完成论文初稿

下周工作

继续完善、润色XXX梯度裁剪算法论文,准备投稿

详细周报链接:

ZelinMa557 commented 6 months ago

姓名

马欣楷

本周工作

  1. 与导师沟通并敲定reduce mean优化方案,实现了generate shape算子的中端代码生成
  2. 修复部分inferSymbolic与inferMeta结果不一致的问题

下周工作

  1. 收尾上述工作
  2. 开始对if/else等控制流在计算图中与在cuda kernel中的性能差异进行测试

详细周报链接:

zbt78 commented 6 months ago

姓名

周波涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续解决上周中pow的问题,当算子的attr作为Scalar时仍然没有较好的解决方法。另一部分是在powfunctor中求梯度时,采用的是把输入数据的实部和虚部拆分开两部分来计算,但functor中的参数为eigen类型的数据,在测试时没有问题,同样ci中出现较多错误,继续解决。
  2. 调研黑客松题目

下周工作

  1. 继续解决pow中出现的问题
  2. 修复其他当前已提交pr,收尾这部分

详细周报链接:

cocoshe commented 6 months ago

姓名

叶柯

实习项目

PaddleMIX 套件能力建设(图文方向)

本周工作

本周主要工作如下:

帮助启航计划的同学解决一些遇到的问题

推进 internlm-xcomposer2 集成到 PaddleMIX 中的PR合入

下周工作

  1. 赶一下毕设和最近nips的ddl

详细周报链接:

xusuyong commented 6 months ago

姓名

xusuyong

本周工作

  1. 调研文献,理解使用NTK理论调节loss权重的算法
  2. 基于allen_cahn_default案例添加通用的ntk优化策略

下周工作

  1. 修正ntk weight的PR

    详细周报链接:

kk-2000 commented 6 months ago

姓名

张千芊

本周工作

  1. 基于paddlepaddle-gpu==2.6.1及paddleSpeech==develop对demos中14个demo(共25个)进行了测试,并记录测试情况

下周工作

  1. 继续完成PaddleSpeech测试,搭建docker环境

详细周报链接:

Tsaiyue commented 6 months ago

姓名

蔡越

实习项目

PaddleMIX 套件能力建设(文图方向)

本周工作

  1. 添加Open-Sora前向推理支持,包含文生视频及其他高级玩法;

下周工作

  1. 推进Open-Sora前向推理PR合入;
  2. 开展Open-Sora训练对齐工作。

详细周报链接

zrr1999 commented 6 months ago

姓名

詹荣瑞

实习项目

PIR Python API 升级及机制建设

本周工作

  1. 完成 PaddleSOT 的动态 shape 支持的部分准备工作

    相关 PR:

下周工作

  1. 继续完善 PaddleSOT 的动态 shape 支持

详细周报链接

zyt1024 commented 6 months ago

姓名

张玉涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续完善fill_constant_op算子,当属性支持Scalar后,跑CI时会出现较多问题,已解决好PR-CE-Framework等问题,仍有一部分CI有问题。

下周工作

  1. 继续修复fill_constant_op实现上的问题

    详细周报链接

WintersMontagne10335 commented 6 months ago

姓名

马贺达

本周工作

  1. 添加 cinn_op.reshape 到 pd_op.reshape 的转换规则 (相关PR:https://github.com/PaddlePaddle/Paddle/pull/64303
  2. 将 "pd_op.add" 添加至 ALLOW_DYNAMIC_SHAPE_VJP_OPS;补充全局推导时带有外部输入时的处理逻辑 (相关PR:https://github.com/PaddlePaddle/Paddle/pull/64342
  3. 以《浅析 cinn 中的符号推导机制》为题做代码串讲 (相关链接:https://github.com/WintersMontagne10335/Paddle-Code-Camp/blob/master/code%20reading/%E6%B5%85%E6%9E%90%20cinn%20%E4%B8%AD%E7%9A%84%E7%AC%A6%E5%8F%B7%E6%8E%A8%E5%AF%BC%E6%9C%BA%E5%88%B6.md

下周工作

  1. 继续修 bug
  2. 完善《浅析 cinn 中的符号推导机制》
  3. VerticalLoopFusion 阅读笔记

详细周报链接:

Corle-hyz commented 6 months ago

姓名

何咏哲

本周工作

  1. 探究异构集群的性质
  2. 初步构建一个异构体系下的全自动并行方案

下周工作

  1. 借助显存公式完成动态均衡的拆分算法,完善异构体系下的全自动并行方案,将其参数化。

详细周报链接: