PFCCLab / Camp

飞桨护航计划集训营
10 stars 72 forks source link

[WeeklyReports] 2024.04.06~2024.04.19 周报汇总 #223

Closed AndSonder closed 3 months ago

AndSonder commented 6 months ago

姓名

xxx

本周工作

  1. xxx
  2. xxx

下周工作

  1. xxx
  2. xxx

详细周报链接:

项目一:PIR 算子补全与兼容机制建设

项目二:PIR 控制流专项

项目三:PIR Python API 升级及机制建设

项目四:动转静 SOT 模块 Python 3.12 支持

项目五:算子支持复数计算专项

项目六:模型迁移工具建设

项目七:框架 API 易用性提升

项目八:组合机制算子专项和机制建设

项目九:高阶微分的性能分析和优化

项目十:静态图半自动并行训练性能优化

项目十一:全自动并行架构升级

项目十二:科学计算领域拓展专项(DeePMD-kit、光学案例)

项目十三:科学计算领域拓展专项(超分重构方向)

项目十四:科学计算领域拓展专项(领域流体方向)

项目十五:科学计算领域拓展专项(领域气象方向)

项目十六:CINN 支持动态 Shape 专项(前端方向)

项目十八:CINN 静态 shape 下鲁棒性和性能优化

项目十九:CINN 支持动态 Shape 专项(后端规则升级)

项目二十:CINN 支持动态 Shape 专项 (后端模型扩量)

项目二十一:Paddle CMake 治理和编译优化

项目二十二:PaddleMIX 套件能力建设(文图方向)

项目二十三:PaddleMIX 套件能力建设(图文方向)

项目二十四:大模型训练稳定性和高效低价小模型快速收敛

项目二十六:推理 Pass & 融合算子优化

项目二十七:PaddleSpeech 套件能力建设

unseenme commented 6 months ago

姓名

Github ID: unseenme

本周工作

  1. 离线测试流程代码开发与测试

下周工作

  1. 开发新的生成器。

  2. 继续离线测试。

详细周报链接:

DUCH714 commented 6 months ago

姓名

Github ID: DUCH714

本周工作

汽车风阻预测项目

阅读 DrivAerNet

阅读 Transolver

探索讨论将DrivAerNet和Transolver应用到GINO上的可能性

下周工作

汽车风阻预测项目

尝试GINO降维以及提高GINO精度

详细周报链接:

lshpku commented 6 months ago

姓名

梁书豪

本周工作

  1. 修复CINN前端在reduce的axis为None时的错误 PR:https://github.com/PaddlePaddle/Paddle/pull/62612
  2. 研究CINN后端TileFirstGeneralTactic在处理reduce算子时访存不连续的问题

下周工作

  1. TileFirstGeneralTactic中实现global memory coalescing策略

详细周报链接:

NKNaN commented 6 months ago

姓名

Github ID: NKNaN

本周工作

  1. 针对 paddle.argsort 和 paddle.sort 的功能增强
  2. 分析修改 kaiming initializers 后,所有仓库存量代码中的可能出现的不兼容问题

下周工作

  1. 验证 paddle.distribution.Categorical 中 sample、entropy、log_prob 的底层计算逻辑是否和 PyTorch 一致
  2. 计划修改 paddle.nn.initializer.TruncatedNormal:增加参数 a, b
  3. 计划修改 paddle.nn.Layer 中的 named_sublayers:增加参数 memo

详细周报链接:

zhaojiameng commented 6 months ago

姓名

赵加孟

本周工作

  1. paddlescience代码转换
  2. 前向精度对齐

下周工作

  1. 后向精度对齐
  2. 训练代码debug

详细周报链接:

gouzil commented 6 months ago

姓名

田川

本周工作

  1. PIR 动转静理想态单测推全验证任务(二期)
  2. PIR 0 维单测适配结项

下周工作

  1. PIR 动转静理想态单测推全验证任务(二期)

详细周报链接:

zeroRains commented 6 months ago

姓名

卢林军

本周工作

  1. 新增reduce_as op并修复其BUG
  1. 解决test_sub_graph_78中,开启with_prim=True会导致单测报错的BUG
  1. 补充组合机制开发文档中的动态图支持部分

下周工作

  1. 尝试对reduce_as完成complex64/128int8的支持
  2. 补充reduce_as的中文文档
  3. 完善之前尚未merge的PR

详细周报链接:

AndSonder commented 6 months ago

姓名

卢畅

实习项目

静态图半自动并行训练性能优化

本周工作

本周工作主要是编写 ZBV 编排所需要用到的显存估计功能

1. 显存估计工具编写

在 Llama2 模型上与实际跑模型时候的显存进行对比,目前发现和实际显存还有一定的差距,需要进一步定位问题。

相关 PR:

2. 定位 Forward 阶段显存逐步增加的原因

3. 排查 Backward 阶段的显存增长问题

4. 排查 Backward 阶段峰值显存估计差距的原因

目前 1F1B 场景下显存估计和实际显存基本一致,但是 Backward 阶段的峰值显存估计和实际峰值显存还是有一定的差距。这个问题还在排查中。估计 backward program 的峰值显存与实际运行时候的峰值显存差了 10% 左右。

下周工作

进一步排查 Backward 阶段峰值显存估计差距的原因,尽快解决这个问题。在显存估计功能完成后,开始着手编写 ZBV 的编排功能。

详细周报链接:

ZelinMa557 commented 6 months ago

姓名

马欣楷

本周工作

  1. 修复paddle.mean接口cinn编译失败的部分case
  2. 进行paddle.mean cinn性能测试,发现性能问题和一些bug

下周工作

  1. 分析和解决paddle.mean接口的各种问题

详细周报链接:

huangjiyi commented 6 months ago

姓名

黄济懿

本周工作

本周请假

下周工作

待安排

silverling commented 6 months ago

姓名

凌少鹏

本周工作

下周工作

详细周报链接:

yulangz commented 6 months ago

姓名

Github ID: yulangz

实习项目

CINN子图鲁棒性和性能优化

本周工作

  1. CINN 故障修复

    1. 添加 ExpandAsOpInferSymbolicShape,同时修复遇到的 add_broadcast_to_elementwise_pass 中的问题,PR:https://github.com/PaddlePaddle/Paddle/pull/63576
    2. 添加 Clip、CrossEntropyWithSoftmax InferSymbolicShape,修复遇到的 reduce op 问题,修复遇到的 dynamic fusion 问题,PR:https://github.com/PaddlePaddle/Paddle/pull/63713

下周工作

  1. 继续依据子图 CE,修复 CINN 的实现。

详细周报链接:

https://github.com/PFCCLab/Camp/pull/236

Yang-Changhui commented 6 months ago

姓名

杨昌辉

本周工作

  1. 基本完成对earthfromer的复现工作
  2. 复现了neuraloperator中的tfno和uno网络

下周工作

  1. 完善earthformer的技术文档
  2. 对sfno网络进行训练,以及精度对齐

PR:

xingmingyyj commented 6 months ago

姓名

xingmingyyj

实习项目

PIR 算子补全与兼容机制建设

本周工作

  1. 分析mean API动转静执行的问题
  2. 分析fake_quantize_range_abs_max执行时OutScale的holder_为null问题
  3. review分布式算子注册issue相关PR

    下周工作

  4. 推进分布式算子注册issue的合入,完成该issue中的内容
  5. review算子单测任务相关PR

    详细周报链接

Tsaiyue commented 6 months ago

姓名

蔡越

本周工作

  1. 优化AnimateAnyone训练权重保存逻辑以及混合精度控制机制;

  2. 同步更新AI studio项目,并解决paddle升级带来的算子行为改变问题

下周工作

  1. 推进AnimateAnyone训练支持相关PR合入;
  2. 调研结合transformer和diffusion model的视频生成相关开源模型;

详细周报链接

xusuyong commented 6 months ago

姓名

徐苏勇

本周工作

  1. 使用katex写公式,在本地渲染自测
  2. 补充导出推理代码和文档内的执行脚本和结果展示
  3. plot提取变成一个函数,给train、evaluate、inference使用

下周工作

  1. 实验casual loss

详细周报链接:

YibinLiu666 commented 6 months ago

姓名

YibinLiu666

实习项目

高阶微分的性能分析和优化

本周工作

  1. 分析现有科学计算中性能相比 pytorch 较差的三个模型,发现瓶颈在于矩阵乘法的二阶微分组合实现,但是由于没有发现额外的计算,暂时没有做相关的优化
  2. 实现sigmoid的二阶微分组合算子 https://github.com/PaddlePaddle/Paddle/pull/63669
  3. 鉴于prod_grad在输入有0的时候梯度会出现nan的情况,参考TensorFlow的实现,评估prod_grad组合实现使用双向cumprod实现的可行性,目前的结论是可行性不高。

下周工作

  1. 参考torch的prod_grad组合实现,解决prod_grad在输入有0的时候梯度会出现nan的情况。

详细周报链接

https://github.com/PFCCLab/Camp/pull/241

lishuai-97 commented 6 months ago

姓名

李帅

Github ID: lishuai-97

本周工作

  1. Megatron-LLaMA训练框架的DP、MP、PP以及Distributed Optimizer相关代码的学习;
  2. 基于Megatron-LLaMA、Open-CLIP框架的各种竞品策略及其优化器的复现以及相关数据集的支持;
  3. 完成了XXX梯度裁剪算法在开源模型上的部分实验;
  4. 梯度/更新裁剪相关文献的阅读学习。

下周工作

  1. 继续完善并补全开源模型实验,对比不同任务效果;
  2. 继续阅读梯度/更新裁剪、大模型稳定性训练相关论文;
  3. 构建论文框架,撰写论文。

详细周报链接:

(上次周报跟这次周报在同一个PR)

zbt78 commented 6 months ago

姓名

周波涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续完善pow算子,在本地把factor设置为Scalar没啥问题,在跑ci时出现很多问题,实现上在ci上还有一些问题
  2. 提交PR:add complex support for rsqrt https://github.com/PaddlePaddle/Paddle/pull/63720
  3. 提交PR:add complex support for tanhshrink https://github.com/PaddlePaddle/Paddle/pull/63722

下周工作

  1. 继续修改pow实现上的问题
  2. 开展新的算子

详细周报链接:

WintersMontagne10335 commented 6 months ago

姓名

马贺达

本周工作

  1. 收尾 pd_op.nonzero (相关PR:https://github.com/PaddlePaddle/Paddle/pull/62987
  2. 补全 pd_op.bce_loss, pd_op.sigmoid_cross_entropy_with_logits 的 check 和单测 (相关PR:https://github.com/PaddlePaddle/Paddle/pull/63277
  3. 阅读 HorizontalLoopFusion 的静态实现,并撰写阅读笔记 (相关链接:https://github.com/WintersMontagne10335/Paddle-Code-Camp/blob/master/code%20reading/HorizontalLoopFusion.md

下周工作

  1. 收尾 pd_op.bce_loss, pd_op.sigmoid_cross_entropy_with_logits, pd_op.distribute_fpn_proposals
  2. 修复计算结果错误相关的 bug

详细周报链接:

cocoshe commented 6 months ago

姓名

叶柯

实习项目

PaddleMIX 套件能力建设(图文方向)

本周工作

本周主要工作如下:

将 internlm-xcomposer2 集成到 PaddleMIX 中,解耦原组网中的 tokenize 部分和 embed 部分,将 tokenize 部分封装成 collator 和 processor,支持 auto 导入。

上报一个Paddle的Dataloader相关的BUG(待确认)

下周工作

  1. 推进完成的几个PR合入
  2. 进行其他任务

详细周报链接:

Corle-hyz commented 6 months ago

姓名

何咏哲

本周工作

  1. 了解Recompute,阅读论文,学习Paddle的Recompute实现

下周工作

  1. 在现有的同构的全自动并行方案的基础上,通过自定义一些经验规则、借助显存公式进行负载均衡、动态调整与策略剪枝,构建一个异构体系下的全自动并行方案。

详细周报链接:

kk-2000 commented 6 months ago

姓名

张千芊

本周工作

  1. 整理PaddleSpeech近一年issue
  2. 安装PaddleSpeech测试环境

下周工作

  1. 继续完成PaddleSpeech测试,对demos中的推理任务和examples中的训练任务进行测试

详细周报链接:

CJ77Qi commented 6 months ago

姓名

陈景琦

本周工作

  1. 安装和配置Paddle CINN的开发环境,build代码

  2. 熟悉Paddle CINN部分的codebase,了解CINN整个项目结构和各部分代码

  3. 跑test_cinn_reduce_symbolic_demo单测,熟悉后续开发流程

下周工作

  1. 初步实现reduce维度是动态shape的后续开发任务
  2. 根据需求动态调整,进一步优化性能

详细周报链接:

https://github.com/PFCCLab/Camp/pull/224

yinfan98 commented 6 months ago

姓名

尹帆

本周工作

  1. weight only int4 quant kernel
  2. weight only int4 重排 kernel

下周工作

  1. kernel精度对齐

详细周报链接:

mattheliu commented 6 months ago

姓名

刘卓鑫

实习项目

PaddleSpeech 套件能力建设

本周工作

  1. 配置PaddlePaddle和PaddleSpeech开发环境

    • 编译运行PaddlePaddle Develop和PaddleSpeech Develop开发环境

    下周工作

  2. 跑PaddleSpeech/Demos

    详细周报指南

Eddie-Wang1120 commented 6 months ago

姓名

王晋恒

本周工作

  1. 配置Paddle/CINN开发环境
  2. 熟悉Paddle Prim Pir代码结构以及运行流程
  3. 进行算子拆解工作

下周工作

  1. 继续进行算子拆解工作
  2. 学习动态shape相关知识

详细周报链接:

zyt1024 commented 6 months ago

姓名

张玉涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续完善fill_constant_op算子,当支持Scalar后,跑CI时会出现较多问题,且涉及面较广,已按照分类整理好了问题。https://github.com/PaddlePaddle/Paddle/pull/59920
  2. 提交PR:https://github.com/PaddlePaddle/Paddle/pull/61261

下周工作

  1. 继续修复fill_constant_op实现上的问题
  2. 尝试fill_any_like算子

详细周报链接:

zrr1999 commented 6 months ago

姓名

詹荣瑞

实习项目

PIR Python API 升级及机制建设

本周工作

  1. 推进 PIR Python API适配升级(第三期)

    相关 PR:

    相关 ISSUE:

下周工作

  1. 继续推进 PIR test_errors 相关单测适配和 PIR Python API适配升级(第三期)。

    相关 PR:

  2. 完成 PaddleSOT 的动态 shape 支持

    相关 PR:

详细周报链接