PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.31k stars 5.63k forks source link

【Hackathon 7th】开源贡献个人挑战赛(偷跑版) #67603

Open sunzhongkai588 opened 3 months ago

sunzhongkai588 commented 3 months ago

大家好!很高兴向大家宣布,第七期 PaddlePaddle Hackathon 正在紧锣密鼓地筹备中,活动预计将在 9 月 10 日 正式上线🔥。为了让迫不及待的开发者们提前体验本次黑客松的精彩内容,我们计划“偷跑”部分赛题。此次提前发布的赛题主要围绕 “科学计算模型复现” 方向展开,欢迎大家提前报名认领并参与开发!

此 issue 发布 开源贡献个人挑战赛(偷跑版) 的任务,以开源贡献为核心,开发者使用 GitHub ID 报名,独立完成具有明确验收目标的贡献任务,获得对应的任务奖励,奖金 1-4 🌟。 详细信息参考往期的第六期黑客松开源贡献个人挑战赛活动说明

报名格式参考:【报名】:2、3,多个任务之间需要使用中文顿号分隔,报名多个连续任务可用横线表示,如 2-5

RFC&PR 提交格式:在 PR 的标题中以 【Hackathon 7th PPSCI No.xxx】 开头,注明任务编号

[!IMPORTANT]

⚠️ 部分任务无需提交 RFC 即可直接进行开发,请查询 RFC 需求列表 确认具体要求。

科学计算模型复现任务

科学计算方向的论文复现,需要严格参考 https://paddlescience-docs.readthedocs.io/zh-cn/latest/zh/reproduction/ ,并合入PaddleScience

序号 难度 任务标题 队伍名称/状态/PR 完成队伍
1 ⭐️ 为开源符号回归库进行paddle适配 @AndPuQing https://github.com/MilesCranmer/PySR/pull/704
2 ⭐️⭐️ Transolver 论文复现 @xusuyong
@LilaKen #999
@lijiawei20161002
3 ⭐️⭐️ DrivAerNet ++ 论文复现 @LilaKen #1001
4 ⭐️⭐️ DrivAerNet 论文复现 @NKNaN
@LilaKen #1000
5 ⭐️⭐️ Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations 论文复现 @lijiawei20161002
6 ⭐️⭐️ Synthetic Lagrangian turbulence by generative diffusion models 论文复现
7 ⭐️⭐️ AI-aided geometric design of anti-infection catheters 论文复现 @ADream-ki #986 #943
@lijiawei20161002
8 ⭐️⭐️ A physics-informed diffusion model for high-fidelity flow field reconstruction 论文复现 @ADream-ki
@AI1LJW #955
9 ⭐️ DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting 论文复现 @lijiawei20161002
@a162837
10 ⭐️⭐️ Neural General Circulation Models for Weather and Climate 论文复现
11 ⭐️ FuXi: A cascade machine learning forecasting system for 15-day global weather forecast 论文复现 @haoyu2022
12 ⭐️⭐️⭐️⭐️ Adam、AdamW优化器支持amsgrad @idontkonwher
@megemini #949 #68079 #990
13 ⭐️⭐️ put_along_axis反向算子实现静态图一阶拆解 @zeroRains #67891
@zeroRains
14 ⭐️⭐️ Crystal Diffusion Variational AutoEncoder论文复现
15 ⭐️⭐️ SchNet论文复现
16 ⭐️⭐️⭐️ MACE论文复现 @LilaKen
17 ⭐️⭐️ PIKAN论文复现

看板信息

任务方向 任务数量 提交作品 / 任务认领 提交率 完成 完成率
【个人挑战赛】科学计算 17 4 / 12 23.53% 2 11.76%

统计信息

排名不分先后 @megemini (1) @zeroRains (1)

wangguan1995 commented 3 months ago

科学计算方向的论文复现,需要严格参考 https://paddlescience-docs.readthedocs.io/zh-cn/latest/zh/reproduction/ ,并合入PaddleScience

xusuyong commented 3 months ago

【报名】:2

ADream-ki commented 3 months ago

【报名】:7

zeroRains commented 3 months ago

【报名】:13

AndPuQing commented 3 months ago

【报名】:1

LilaKen commented 3 months ago

【报名】:2

lijiawei20161002 commented 3 months ago

【报名】:2、5、7、9

ADream-ki commented 3 months ago

【报名】:8

idontkonwher commented 3 months ago

【报名】:12

megemini commented 3 months ago

【报名】:12

NKNaN commented 3 months ago

【报名】:4

AI1LJW commented 2 months ago

【报名】:8

LilaKen commented 2 months ago

【报名】:3、4

haoyu2022 commented 2 months ago

【报名】:11

LilaKen commented 1 month ago

【报名】:16

a162837 commented 1 month ago

【报名】:9

LilaKen commented 1 month ago

请问复现指标有些指标相对误差满足10%的要求,有些不满足10%的要求时如何判定?公式是(复现指标-源论文指标)/源论文指标<10%,感觉这样的判断方式有缺陷,假设复现指标是0.8,源论文指标是0.75,那么相对误差则是0.06;假设复现指标是0.15,源论文指标是0.10,那么相对误差则是0.5>10%,该公式使用的是相对误差,但在某些情况下,绝对误差可能更有意义。例如,当源论文指标非常接近零时,即使是微小的绝对误差也会导致相对误差非常大。一点建议。

HydrogenSulfate commented 1 month ago

请问复现指标有些指标相对误差满足10%的要求,有些不满足10%的要求时如何判定?公式是(复现指标-源论文指标)/源论文指标<10%,感觉这样的判断方式有缺陷,假设复现指标是0.8,源论文指标是0.75,那么相对误差则是0.06;假设复现指标是0.15,源论文指标是0.10,那么相对误差则是0.5>10%,该公式使用的是相对误差,但在某些情况下,绝对误差可能更有意义。例如,当源论文指标非常接近零时,即使是微小的绝对误差也会导致相对误差非常大。一点建议。

是的,我们会根据实际题目和选手提供的精度具体数值进行判断,可以在在回复中提供一下具体的精度信息吗?

LilaKen commented 1 month ago

Model | Shape-Net-Car | | | | 复现指标 volume | surf | Cd | ρd |
Transolver | 0.0221 | 0.0797 | 0.0134 | 0.9902 |
相对误差 | 0.06763 | 0.0698 | 0.301 | -0.003 |

Model | Shape-Net-Car | | | | 源指标
| volume | surf | Cd | ρd |
Transolver | 0.0207 | 0.0745 | 0.0103 | 0.9935 |

非常感谢你的回复,上面仅展示复现的一个数据集结果,其他数据集也是大差不差,如果这个没问题的话其他应该也没问题

另外关于DrivAerNet++的复现,原论文batch_size为32,我这边由于服务器是实验室一起用的,先跑了个batch_size为4的,效果如下 PointNet: Test MSE: 0.000665, Test MAE: 0.021250, Max MAE: 0.048836 复现指标 Test MSE: 0.000149 Test MAE: 0.009600, Max MAE: 0.012450 源论文指标

HydrogenSulfate commented 1 month ago

Model | Shape-Net-Car | | | | 复现指标 volume | surf | Cd | ρd | Transolver | 0.0221 | 0.0797 | 0.0134 | 0.9902 | 相对误差 | 0.06763 | 0.0698 | 0.301 | -0.003 |

Model | Shape-Net-Car | | | | 源指标 | volume | surf | Cd | ρd | Transolver | 0.0207 | 0.0745 | 0.0103 | 0.9935 |

非常感谢你的回复,上面仅展示复现的一个数据集结果,其他数据集也是大差不差,如果这个没问题的话其他应该也没问题

另外关于DrivAerNet++的复现,原论文batch_size为32,我这边由于服务器是实验室一起用的,先跑了个batch_size为4的,效果如下 PointNet: Test MSE: 0.000665, Test MAE: 0.021250, Max MAE: 0.048836 复现指标 Test MSE: 0.000149 Test MAE: 0.009600, Max MAE: 0.012450 源论文指标

  1. 第一个ShapeNetCar看起来没太大问题呢。
  2. 第二个DrivAerNet++看起来精度差别还是比较大的,可以确认下如果模型中没有BN这种带有历史统计的层,可以尝试使用梯度累加(https://paddlescience-docs.readthedocs.io/zh-cn/latest/zh/user_guide/#24)来训练;另外如果手头算力不太够,可以使用AIStudio进行训练,我们可以帮助申请ATStudio32G的资源
LilaKen commented 1 month ago

非常感谢你提供关于”BN这种带有历史统计的层“这一点的知识信息,感谢你提供关于GPU申请的事项,目前我这边算力足够,等其他跑完我就可以跑了。

HydrogenSulfate commented 1 month ago

非常感谢你提供关于”BN这种带有历史统计的层“这一点的知识信息,感谢你提供关于GPU申请的事项,目前我这边算力足够,等其他跑完我就可以跑了。

训练对齐的话尽量保证batchsize相同,否则梯度累加也不能做到与原batch size完全等价