Closed AndSonder closed 2 months ago
黄济懿
卢林军
探索sigmoid_cross_entropy_with_logits
op的方向计算kernel与自动微分不一致的原因
反向拆解swiglu_grad
op
修复binary_cross_entropy_with_logits
前向拆解的BUG
softmax_with_cross_entropy
op 前向拆解以及动态shape的支持(开发中)softmax_with_cross_entropy
op的前向拆解softmax_with_cross_entropy_grad
op反向拆解卢畅
静态图半自动并行训练性能优化
由于 ZBV 的 V 型编排和 VPP 的切图方式不同,我们需要对 ZBV 的分布式切分标记进行适配。
在 Llama2 上进行了实际业务场景下的性能测试,发现了一些问题。
当 chunk 是偶数的时候,计算 loss 的时间过长,导致了 bubble rate 过高
zbv 的官方时间中在没有 f 任务的时候会错误的插入 w 任务,导致了 b 任务的 delay
相关 PR:
之前流水线 timeline 可视化工具只能适配静态图,现在我们将其适配动转静的情况。
相关 PR:
Yang-Changhui
梁书豪
CodeGenCUDA_Dev
中下标化简的逻辑移动到PostProcess
中,并排查其他例外情况张千芊
YibinLiu666
李睿文
paddle.nn.layer.state_dict
的功能增强paddle.median
的 min 分支存在的 bug叶柯
PaddleMIX 套件能力建设(图文方向)
本周主要工作如下:
优化qwen的mixtoken策略,解决了预处理数据集时显存易溢出的问题
田川
register_hook
的使用以及实现方法py_function
的使用以及实现方法PyFuncOp
的实现方法PyFuncOp
基本框架Github ID: yulangz
CINN子图鲁棒性和性能优化
CINN 故障修复
DUCH714
使用transformer结构有效地处理各种不同数据类型。
尝试处理更多数据集,提升泛化能力。
王晋恒
组合机制算子专项和机制建设
蔡越
PaddleMIX 套件能力建设(文图方向)
优化Open-Sora MultiheadCrossAttention注意力计算;
完成Open-Sora在notrainer下的训练代码的转写,并进行对齐;
实现基于PaddleNLP.trainer的训练流程,但在反向计算过程中出现精度不匹配问题,需进一步排查。
尹帆
徐苏勇
修改NTK weight的PR
相关PR:Add allen cahn sota
刘卓鑫
凌少鹏
何咏哲
周波涛
算子支持复数计算专项
[WeeklyReports] 2024.05.11~2024.05.24 周报汇总
请各位学员在本 issue 下以 comment 的形式填写周报摘要,ddl 本周五晚,格式示例如下:
项目二:PIR 控制流专项
项目三:PIR Python API 升级及机制建设
项目四:动转静 SOT 模块 Python 3.12 支持
项目五:算子支持复数计算专项
项目六:模型迁移工具建设
项目七:框架 API 易用性提升
项目八:组合机制算子专项和机制建设
项目九:高阶微分的性能分析和优化
项目十:静态图半自动并行训练性能优化
项目十一:全自动并行架构升级
项目十二:科学计算领域拓展专项(DeePMD-kit、光学案例)
项目十三:科学计算领域拓展专项(超分重构方向)
项目十四:科学计算领域拓展专项(领域流体方向)
项目十五:科学计算领域拓展专项(领域气象方向)
项目十六:CINN 支持动态 Shape 专项(前端方向)
项目十八:CINN 静态 shape 下鲁棒性和性能优化
项目十九:CINN 支持动态 Shape 专项(后端规则升级)
项目二十:CINN 支持动态 Shape 专项 (后端模型扩量)
项目二十一:Paddle CMake 治理和编译优化
项目二十二:PaddleMIX 套件能力建设(文图方向)
项目二十三:PaddleMIX 套件能力建设(图文方向)
项目二十四:大模型训练稳定性和高效低价小模型快速收敛
项目二十六:推理 Pass & 融合算子优化
项目二十七:PaddleSpeech 套件能力建设