PFCCLab / Camp

飞桨护航计划集训营
10 stars 70 forks source link

[WeeklyReports] 2024.05.11~2024.05.24 周报汇总 #280

Closed AndSonder closed 2 months ago

AndSonder commented 4 months ago

[WeeklyReports] 2024.05.11~2024.05.24 周报汇总

请各位学员在本 issue 下以 comment 的形式填写周报摘要,ddl 本周五晚,格式示例如下:

### 姓名

xxx

### 本周工作

1. xxx
2. xxx

### 下周工作

1. xxx
2. xxx

### 详细周报链接:

- https://github.com/PFCCLab/Camp/pull/xxx

项目二:PIR 控制流专项

项目三:PIR Python API 升级及机制建设

项目四:动转静 SOT 模块 Python 3.12 支持

项目五:算子支持复数计算专项

项目六:模型迁移工具建设

项目七:框架 API 易用性提升

项目八:组合机制算子专项和机制建设

项目九:高阶微分的性能分析和优化

项目十:静态图半自动并行训练性能优化

项目十一:全自动并行架构升级

项目十二:科学计算领域拓展专项(DeePMD-kit、光学案例)

项目十三:科学计算领域拓展专项(超分重构方向)

项目十四:科学计算领域拓展专项(领域流体方向)

项目十五:科学计算领域拓展专项(领域气象方向)

项目十六:CINN 支持动态 Shape 专项(前端方向)

项目十八:CINN 静态 shape 下鲁棒性和性能优化

项目十九:CINN 支持动态 Shape 专项(后端规则升级)

项目二十:CINN 支持动态 Shape 专项 (后端模型扩量)

项目二十一:Paddle CMake 治理和编译优化

项目二十二:PaddleMIX 套件能力建设(文图方向)

项目二十三:PaddleMIX 套件能力建设(图文方向)

项目二十四:大模型训练稳定性和高效低价小模型快速收敛

项目二十六:推理 Pass & 融合算子优化

项目二十七:PaddleSpeech 套件能力建设

huangjiyi commented 4 months ago

姓名

黄济懿

本周工作

  1. 实现 YieldInstruction 以解决 YieldOp 的输入变量需要跳过 GC 所引发的内存泄露问题
  2. 增加 WhileOp 中的 loop_vars 对 -1 shape 的支持
  3. 规范用于自动生成算子定义的 yaml 文件路径
  4. 将新 IR 下动静定义一致的算子迁移至 ops.yaml 和 backward.yaml

下周工作

详细周报链接

zeroRains commented 4 months ago

姓名

卢林军

本周工作

  1. 探索sigmoid_cross_entropy_with_logits op的方向计算kernel与自动微分不一致的原因

  2. 反向拆解swiglu_grad op

  3. 修复binary_cross_entropy_with_logits前向拆解的BUG

  1. softmax_with_cross_entropy op 前向拆解以及动态shape的支持(开发中)

下周工作

  1. 继续完成softmax_with_cross_entropy op的前向拆解
  2. softmax_with_cross_entropy_grad op反向拆解

详细周报链接:

AndSonder commented 4 months ago

姓名

卢畅

实习项目

静态图半自动并行训练性能优化

本周工作

1. 为 ZBV 适配分布式标记

由于 ZBV 的 V 型编排和 VPP 的切图方式不同,我们需要对 ZBV 的分布式切分标记进行适配。

2. 在实际业务场景下验证性能

在 Llama2 上进行了实际业务场景下的性能测试,发现了一些问题。

  1. 当 chunk 是偶数的时候,计算 loss 的时间过长,导致了 bubble rate 过高

  2. zbv 的官方时间中在没有 f 任务的时候会错误的插入 w 任务,导致了 b 任务的 delay

3. 将 zbv 编排和显存估计功能结合

相关 PR:

4. 为流水线 timeline 工具适配动转静

之前流水线 timeline 可视化工具只能适配静态图,现在我们将其适配动转静的情况。

相关 PR:

详细周报链接

Yang-Changhui commented 4 months ago

姓名

Yang-Changhui

本周工作

  1. 完成earthformer技术文档的编写,并合入pr
  2. 完成neuraloperator动态模型转静态模型的代码编写,并使用静态模型预测和可视化展示

下周工作

  1. 根据导师意见,修改neuraloperator模型的代码,以及相关文档的编写

相关PR:

详细周报链接:

lshpku commented 4 months ago

姓名

梁书豪

本周工作

  1. 在CINN后端实现新的Tiling流程
  2. 排查生成的CUDA代码中访问越界的问题

下周工作

  1. CodeGenCUDA_Dev中下标化简的逻辑移动到PostProcess中,并排查其他例外情况

详细周报链接:

kk-2000 commented 4 months ago

姓名

张千芊

本周工作

  1. 对demo进行测试
  2. 整理当前可以修复的问题,相关issue:

下周工作

  1. 对当前可以修复的问题和BUG进行修复

详细周报链接:

YibinLiu666 commented 4 months ago

姓名

YibinLiu666

本周工作

  1. 收尾cumprod升级pr。
  2. 定位到双向cumprod实现prod_grad的bug,静态图机制下cpu cumprod会自动使用inplace,原因未知。
  3. 初步支持bmm的复数,complex64还有点问题

下周工作

  1. 收尾双向cumprod实现prod_grad pr
  2. 支持bmm复数类型
NKNaN commented 4 months ago

姓名

李睿文

本周工作

  1. 针对 paddle.nn.layer.state_dict 的功能增强
  2. 修复 paddle.median 的 min 分支存在的 bug

下周工作

  1. 计划修改 paddle.io.BatchSampler:升级 sampler 参数,支持任意可迭代类型
  2. 尝试进行升级 paddle.add/sub/div/mul 等二元 API 以支持 python number 的任务

详细周报链接:

lishuai-97 commented 4 months ago

姓名

李帅

Github ID: lishuai-97

本周工作

本周主要工作内容为完善XXX梯度裁剪算法论文,目前已完成论文投稿工作。

下周工作

总结实习项目,准备项目答辩。

详细周报链接:

cocoshe commented 4 months ago

姓名

叶柯

实习项目

PaddleMIX 套件能力建设(图文方向)

本周工作

本周主要工作如下:

优化qwen的mixtoken策略,解决了预处理数据集时显存易溢出的问题

下周工作

  1. 推进pr合入

详细周报链接:

gouzil commented 4 months ago

姓名

田川

本周工作

  1. 学习 torch 的register_hook的使用以及实现方法
  2. 学习 tensorflow 的py_function的使用以及实现方法
  3. 学习原有的PyFuncOp的实现方法
  4. 初步构建PyFuncOp基本框架

下周工作

  1. 推进 pr 合入

详细周报链接:

yulangz commented 4 months ago

姓名

Github ID: yulangz

实习项目

CINN子图鲁棒性和性能优化

本周工作

  1. CINN 故障修复

    1. 修复 CINN Gather 算子在 2D Tensor 下的问题。PR: https://github.com/PaddlePaddle/Paddle/pull/64474
    2. 添加两个算子的 InferSymbolShape。PR:https://github.com/PaddlePaddle/Paddle/pull/64653

下周工作

  1. 尝试解决 masked_select 结果形状未知的问题。

详细周报链接

https://github.com/PFCCLab/Camp/pull/294

DUCH714 commented 4 months ago

姓名

DUCH714

本周工作

使用transformer结构有效地处理各种不同数据类型。

下周工作

尝试处理更多数据集,提升泛化能力。

详细周报链接:

Eddie-Wang1120 commented 4 months ago

姓名

王晋恒

实习项目

组合机制算子专项和机制建设

本周工作

下周工作

  1. 继续进行算子拆解工作
  2. 继续学习相关知识

详细周报链接

Tsaiyue commented 4 months ago

姓名

蔡越

实习项目

PaddleMIX 套件能力建设(文图方向)

本周工作

  1. 优化Open-Sora MultiheadCrossAttention注意力计算;

  2. 完成Open-Sora在notrainer下的训练代码的转写,并进行对齐;

  3. 实现基于PaddleNLP.trainer的训练流程,但在反向计算过程中出现精度不匹配问题,需进一步排查。

下周工作

  1. 排查基于trainer训练流程存在的问题,并在多卡环境下测试,整理提交训练相关PR;
yinfan98 commented 4 months ago

姓名

尹帆

本周工作

  1. RoPE kernel 支持 theta 参数 https://github.com/PaddlePaddle/PaddleNLP/pull/8440
  2. blha 支持GQA https://github.com/PaddlePaddle/Paddle/pull/64640

下周工作

  1. xxx
  2. xxx

详细周报链接:

xusuyong commented 4 months ago

姓名

徐苏勇

本周工作

  1. 修改NTK weight的PR

    相关PR:Add allen cahn sota

下周工作

  1. xxx
  2. xxx

详细周报链接:

mattheliu commented 4 months ago

姓名

刘卓鑫

实习项目

PaddleSpeech 套件能力建设

本周工作

  1. 跑PaddleSpeech/Demos 已跑完25/25 验证完成进度13/25

下周工作

  1. 修复Issue https://github.com/PaddlePaddle/PaddleSpeech/issues/3652 https://github.com/PaddlePaddle/PaddleSpeech/issues/3544 https://github.com/PaddlePaddle/PaddleSpeech/issues/3530
  2. 修复demos/speech_server和demos/audio_content_search中存在的bug

详细周报链接

silverling commented 3 months ago

姓名

凌少鹏

本周工作

下周工作

详细周报链接:

unseenme commented 3 months ago

姓名

Github ID: unseenme

本周工作

  1. 离线测试与筛选

  2. 离线测试流程代码改进

  3. 更新测试环境的框架版本

下周工作

  1. 继续离线测试

  2. 继续改进测试流程代码以进一步提高测试效率

详细周报链接:

Corle-hyz commented 3 months ago

姓名

何咏哲

本周工作

  1. 借助显存公式完成动态均衡的拆分算法
  2. 完善异构体系下的全自动并行方案,将其参数化

下周工作

  1. 准备答辩

详细周报链接:

zbt78 commented 3 months ago

姓名

周波涛

实习项目

算子支持复数计算专项

本周工作

  1. 合入inv相关工作 https://github.com/PaddlePaddle/Paddle/pull/63229
  2. 完善之前pr

下周工作

  1. 准备最终答辩

详细周报链接: