PFCCLab / Camp

飞桨护航计划集训营
19 stars 73 forks source link

[WeeklyReports] 2023.11.08~2023.11.21 周报汇总 #77

Closed MarioLulab closed 11 months ago

MarioLulab commented 1 year ago

[WeeklyReports] 2023.11.08~2023.11.21 周报汇总

请各位学员在本 issue 下以 comment 的形式填写周报摘要,ddl 本周四晚,格式示例如下:

### 姓名

xxx

### 本周工作

1. xxx
2. xxx

### 下周工作

1. xxx
2. xxx

### 详细周报链接:

- https://github.com/PFCCLab/Camp/pulls/xxx

完成情况:

项目一:算子规范和 ProgramTranslator 功能优化

项目二:新 IR Pass 建设和依赖的核心组件完善

项目三:新 IR API + 自动微分推全和核心组件完善

项目四:组合机制前反向架构统一

项目五:算子支持复数计算专项

项目六:量化算子集成

项目七:开源模型加速复现

项目八:CPU 融合算子 / GPU 算子融合 pass

项目九:动态图半自动并行架构研发

项目十:静态图半自动并行执行架构升级

项目十一:分布式能力矩阵建设

项目十二:全自动并行架构升级

项目十三:科学计算领域拓展专项

项目十四:Clas 套件全流程建设

项目十六:Nougat 复现及优化

项目十七:NLP 大模型复现

项目十八:套件压缩能力建设

项目十九:PIR 适配 AI 编译器 CINN

项目二十:PIR 子图验证+核心机制完善

项目二十一:PIR 核心组件建设与机制完善

项目二十二:PIR 动转静组件建设与单测验证推全

项目二十三:模型迁移工具建设

DrRyanHuang commented 1 year ago

姓名

黄子豪

本周工作

将相关 API 迁移升级至 pir,并更新单测, 共24个

bmm / broadcast_tensors / histogram
lstsq / lu / lu_unpack
matrix_rank / mv / matrix_power / qr / multi_dot
is_empty / isfinite / isinf
PairwiseDistance / take_along_axis
unique_consecutive / moveaxis
roi_align / roi_pool
pinv / svd
diff / conj

pr链接

下周工作

  1. 新IR Python API适配升级收尾工作
  1. PIR 动转静理想态单测推全验证
  1. 继续进行 cinn 相关源码阅读

详细周报链接:

gouzil commented 1 year ago

姓名

田川

本周工作

  1. PIR 动转静组件单测问题排查
  2. 部分 PIR API适配

相关pr:

下周工作

  1. PIR 动转静组件单测问题排查
  2. PIR API 以及动转静最终态适配

详细周报链接:

AndSonder commented 1 year ago

姓名

卢畅

本周工作

当下没有工具能够直接给出自动并行模式下各个GPU设备上不同Job的运行区间,因此我们需要设计一个可视化工具来实现这个功能。

本周的主要工作依然和可视化工具有关,主要工作内容如下:

1. 将可视化工具起始条件和nvprof解耦 2. 更改 CalculateStreamTimer 中获取计算流的逻辑 3. 支持多机训练下的可视化 4. 支持新IR下的可视化工具的使用 5. 适配Llama2

相关PR:

下周工作

1. 算子注册到phi: c_gen_nccl_id、c_comm_init、c_comm_init_all、c_comm_init_multitrainer 2. 论文学习: 1)Efficient large-scale language model training on gpu clusters using megatron-lm 2)Megatron-LM- Training Multi-Billion Parameter Language Models Using Model Parallelism 3)Zero: memory optimizations toward training trillion parameter models 4)Reducing Activation Recomputation in Large Transformer Models 3. 可视化工具的使用文档完善

详细周报链接:

Wanglongzhi2001 commented 1 year ago

姓名

王龙志

本周工作

  1. 完善 quant_linear_fuse_pass 以及相关单测
  2. 编写 PIR 下的 weight_only 的 pass 以及单测

相关 PR:

下周工作

  1. 完善 PIR 下 weight_only 的 pass 以及单测
  2. 与导师沟通并执行下一步工作

详细周报链接:

MarioLulab commented 1 year ago

姓名

陆琦

本周工作

  1. 维护第三期的 PIR 迁移的任务,为开发者提供答疑和 pr review,review 19 个 PR

  2. 完成 3 个 PIR 迁移的 PR,推进 1 个 PIR 迁移的 PR 相关 PR :

  3. 完善 PIR API 相关机制

  4. 支持动静半架构升级工作

下周工作

  1. 与外部开发者协作沟通,管理任务发布, review PR, 答疑和 bug 修复 issue,推进 PIR API 的推全验证工作
  2. 继续完善 API PIR 下的迁移工作
  3. 完成 code reading 笔记初稿
  4. 迁移 PyLayer Op 到 PIR 体系下
  5. expand_v2 spmd 规则添加

详细周报链接:

zrr1999 commented 1 year ago

姓名

詹荣瑞

本周工作

  1. PIR Python API适配升级相关工作
  2. 学习针对不同 api 的 check 代码⽣成逻辑

相关PR:

下周工作

  1. 完善针对不同api的check代码⽣成逻辑。
  2. 迁移算子到 PIR 。

详细周报链接:

DanGuge commented 1 year ago

姓名

吴晨灿

本周工作

  1. 基于fused VIT完成weight_only_int8
    • weight_only_int8精度符合预期,加速1.4倍左右

相关PR:

下周工作

  1. ptq paddlenlp代码学习
  2. 静态图trt的推理对比
  3. weight_only性能提升分析

详细周报链接

kevincheng2 commented 1 year ago

姓名

程延福

本周工作

  1. 完成gelu、dropout、sqrt、rsqrt算子的前向拆解下沉
  2. 理解前向decomp代码生成过程
  3. 整理开发文档

相关PR:

下周工作

  1. 实现 relus.py 中其他算子的迁移工作
  2. 组合机制部分反向算子的迁移工作
  3. 结合pytorch中的组合机制,理解组合机制的背景,整理相关文档

详细周报链接:

Corle-hyz commented 1 year ago

姓名

何咏哲

本周工作

  1. 在单卡建模的基础上,进一步对Llama显存模型考虑以下并行模式

    • 张量并行(Tensor Parallelism)
    • 序列并行(Sequence Parallelism)
    • 流水线并行(Pipeline Parallelism)
    • 切片(Sharding)
    • 重计算(Recompute)
  2. 将上述并行模式参数化,最终得到一个完整的显存计算公式

下周工作

  1. 在真机分布式环境下验证Llama显存模型的准确度
  2. 为Llama显存模型编写函数,并提交PR到PaddleNLP中

详细周报链接:

xingmingyyj commented 1 year ago

姓名

朱新明

本周工作

  1. 整理待修复Op单测名单
  2. 编写op单测修复issue
  3. 编写Parser实现分享文档
  4. 修复test_unique单测
  5. 修复单测test_uniform_random_bf16_op

下周工作

  1. 根据推全名单继续修复Op单测
  2. 将issue发布社区

详细周报链接:

zhangyuqin1998 commented 1 year ago

姓名

张钰钦

本周工作

  1. 完成常量折叠评审
  2. 重写常量折叠pass

下周工作

  1. 处理常量折叠中算子有多个输出的情况

详细周报链接:

xusuyong commented 1 year ago

姓名

徐苏勇

本周工作

  1. 迁移RegAE案例到PaddleScience仓库中
  2. 撰写SU2与DDPM的结合使用调研文档

下周工作

  1. 修改RegAE案例代码

详细周报链接:

zyt1024 commented 1 year ago

姓名

张玉涛

本周工作

  1. 添加复数算子支持
  2. 了解Paddle的分层

下周工作

  1. 完成assgin_valuefill_any_likefill_constant这三个基础算子的复数支持工作
  2. 逐步实现kernel_type:phi中算子的复数支持工作

详细周报链接:

ranchongzhi commented 1 year ago

姓名

冉崇治

本周工作

  1. 完成PPOCRV4文字检测模型的自动压缩流程

    下周工作

  2. 训练PPOCRV4检测模型的训练、导出、自动化压缩和推理等工作

    详细周报链接:

yangguohao commented 1 year ago

姓名

杨国浩

本周工作

  1. 修复动转静测试

  2. 撰写算子修复任务的社区发布的相关内容并进行讨论

下周工作

  1. 完成 Sequence_mask Op 在新 IR 下的适配
  2. 定位剩余几个动转静测试的问题

详细周报链接:

psky1111 commented 1 year ago

姓名

宋铠玉

本周工作

修复三个工作动转静问题,完成三个大模型backbone基于paddle vit架构前向对齐

下周工作

待与导师对齐后

详细周报链接:

SecretXV commented 1 year ago

姓名

SecretXV

本周工作

  1. sharding stage3 + dp 单测卡住问题定位并解决
  2. sharding stage2 + dp 梯度累加功能单测完善
  3. sharding stage3 + dp 梯度累加功能验证单测添加

下周工作

  1. 完成 mp + stage2, mp + stage3 梯度累加功能验证
  2. 学习sep相关代码,尝试 mp + sp + sharding 相关单测的添加

详细周报链接:

Xinyu302 commented 1 year ago

姓名

杨新宇

本周工作

  1. 学习使用模型推理实测自动混精pass,初版自动混精pass在resnet网络上调试成功

  2. 在更为复杂的模型上进行测试 目前在比较复杂的模型上混精pass会运行失败,主要是由于built-in op的处理方式考虑不周到,正在进行调试

下周工作

  1. 完善混精pass的实现,调通更为复杂的模型。
  2. 增加调优的功能。

详细周报链接

90

Frida-a commented 1 year ago

姓名

侯悦欣

本周工作

  1. 实现源码推理
    • 在aistudio环境中克隆项目源码并配置相关环境
    • 下载并运行0.1.0-base,0.1.0-small两种权重
  2. 尝试模型结果对齐

下周工作

  1. 使用PaConvert进行代码转换和debug
  2. 使用PaDiff进行检查和debug

详细周报链接:

HermitSun commented 12 months ago

姓名

孙逸伦

本周工作

  1. 跟进最新进展,学习设计文档
  2. 阅读相关代码,尝试补全策略:
    1. https://github.com/PaddlePaddle/Paddle/pull/59367

下周工作

  1. 完成当前的补全工作
  2. 完善其他相关策略的补全工作

详细周报链接:

RedContritio commented 12 months ago

姓名

刘宇博

本周工作

  1. 映射单测调用多样性检测工具维护
  2. 现存 bug 修复

下周工作

  1. 继续修复完善单测,提高用例覆盖面;
  2. 补充现有映射表 api_mapping.json

详细周报链接