【Hackathon 7th】开源贡献个人挑战赛（偷跑版）

sunzhongkai588 commented 3 months ago

大家好！很高兴向大家宣布，第七期 PaddlePaddle Hackathon 正在紧锣密鼓地筹备中，活动预计将在 9 月 10 日 正式上线🔥。为了让迫不及待的开发者们提前体验本次黑客松的精彩内容，我们计划“偷跑”部分赛题。此次提前发布的赛题主要围绕 “科学计算模型复现” 方向展开，欢迎大家提前报名认领并参与开发！

此 issue 发布 开源贡献个人挑战赛（偷跑版） 的任务，以开源贡献为核心，开发者使用 GitHub ID 报名，独立完成具有明确验收目标的贡献任务，获得对应的任务奖励，奖金 1-4 🌟。 详细信息参考往期的第六期黑客松开源贡献个人挑战赛活动说明。

报名格式参考：【报名】：2、3，多个任务之间需要使用中文顿号分隔，报名多个连续任务可用横线表示，如 2-5

RFC&PR 提交格式：在 PR 的标题中以【Hackathon 7th PPSCI No.xxx】开头，注明任务编号

[!IMPORTANT]

⚠️ 部分任务无需提交 RFC 即可直接进行开发，请查询 RFC 需求列表确认具体要求。

科学计算模型复现任务

科学计算方向的论文复现，需要严格参考 https://paddlescience-docs.readthedocs.io/zh-cn/latest/zh/reproduction/ ，并合入PaddleScience

序号	难度	任务标题	队伍名称/状态/PR	完成队伍
1	⭐️	为开源符号回归库进行paddle适配	@AndPuQing https://github.com/MilesCranmer/PySR/pull/704
2	⭐️⭐️	Transolver 论文复现	@xusuyong @LilaKen #999 @lijiawei20161002
3	⭐️⭐️	DrivAerNet ++ 论文复现	@LilaKen #1001
4	⭐️⭐️	DrivAerNet 论文复现	@NKNaN @LilaKen #1000
5	⭐️⭐️	Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations 论文复现	@lijiawei20161002
6	⭐️⭐️	Synthetic Lagrangian turbulence by generative diffusion models 论文复现
7	⭐️⭐️	AI-aided geometric design of anti-infection catheters 论文复现	@ADream-ki #986 #943 @lijiawei20161002
8	⭐️⭐️	A physics-informed diffusion model for high-fidelity flow field reconstruction 论文复现	@ADream-ki @AI1LJW #955
9	⭐️	DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting 论文复现	@lijiawei20161002 @a162837
10	⭐️⭐️	Neural General Circulation Models for Weather and Climate 论文复现
11	⭐️	FuXi: A cascade machine learning forecasting system for 15-day global weather forecast 论文复现	@haoyu2022
12	⭐️⭐️⭐️⭐️	Adam、AdamW优化器支持amsgrad	@idontkonwher @megemini #949 #68079 #990
13	⭐️⭐️	put_along_axis反向算子实现静态图一阶拆解	@zeroRains #67891	@zeroRains
14	⭐️⭐️	Crystal Diffusion Variational AutoEncoder论文复现
15	⭐️⭐️	SchNet论文复现
16	⭐️⭐️⭐️	MACE论文复现	@LilaKen
17	⭐️⭐️	PIKAN论文复现

看板信息

任务方向	任务数量	提交作品 / 任务认领	提交率	完成	完成率
【个人挑战赛】科学计算	17	4 / 12	23.53%	2	11.76%

统计信息

排名不分先后 @megemini (1) @zeroRains (1)

wangguan1995 commented 3 months ago

科学计算方向的论文复现，需要严格参考 https://paddlescience-docs.readthedocs.io/zh-cn/latest/zh/reproduction/ ，并合入PaddleScience

xusuyong commented 3 months ago

【报名】：2

ADream-ki commented 3 months ago

【报名】：7

zeroRains commented 3 months ago

【报名】：13

AndPuQing commented 3 months ago

【报名】：1

LilaKen commented 3 months ago

【报名】：2

lijiawei20161002 commented 3 months ago

【报名】：2、5、7、9

ADream-ki commented 3 months ago

【报名】：8

idontkonwher commented 3 months ago

【报名】：12

megemini commented 3 months ago

【报名】：12

NKNaN commented 3 months ago

【报名】：4

AI1LJW commented 2 months ago

【报名】：8

LilaKen commented 2 months ago

【报名】：3、4

haoyu2022 commented 2 months ago

【报名】：11

LilaKen commented 1 month ago

【报名】：16

a162837 commented 1 month ago

【报名】：9

LilaKen commented 1 month ago

请问复现指标有些指标相对误差满足10%的要求，有些不满足10%的要求时如何判定？公式是(复现指标-源论文指标)/源论文指标<10%,感觉这样的判断方式有缺陷，假设复现指标是0.8，源论文指标是0.75，那么相对误差则是0.06；假设复现指标是0.15，源论文指标是0.10，那么相对误差则是0.5>10%,该公式使用的是相对误差，但在某些情况下，绝对误差可能更有意义。例如，当源论文指标非常接近零时，即使是微小的绝对误差也会导致相对误差非常大。一点建议。

HydrogenSulfate commented 1 month ago

请问复现指标有些指标相对误差满足10%的要求，有些不满足10%的要求时如何判定？公式是(复现指标-源论文指标)/源论文指标<10%,感觉这样的判断方式有缺陷，假设复现指标是0.8，源论文指标是0.75，那么相对误差则是0.06；假设复现指标是0.15，源论文指标是0.10，那么相对误差则是0.5>10%,该公式使用的是相对误差，但在某些情况下，绝对误差可能更有意义。例如，当源论文指标非常接近零时，即使是微小的绝对误差也会导致相对误差非常大。一点建议。

是的，我们会根据实际题目和选手提供的精度具体数值进行判断，可以在在回复中提供一下具体的精度信息吗？

LilaKen commented 1 month ago

Model | Shape-Net-Car | | | | 复现指标 volume | surf | Cd | ρd |
Transolver | 0.0221 | 0.0797 | 0.0134 | 0.9902 |
相对误差 | 0.06763 | 0.0698 | 0.301 | -0.003 |

Model | Shape-Net-Car | | | | 源指标
| volume | surf | Cd | ρd |
Transolver | 0.0207 | 0.0745 | 0.0103 | 0.9935 |

非常感谢你的回复，上面仅展示复现的一个数据集结果，其他数据集也是大差不差，如果这个没问题的话其他应该也没问题

另外关于DrivAerNet++的复现，原论文batch_size为32，我这边由于服务器是实验室一起用的，先跑了个batch_size为4的，效果如下 PointNet： Test MSE: 0.000665, Test MAE: 0.021250, Max MAE: 0.048836 复现指标 Test MSE: 0.000149 Test MAE: 0.009600, Max MAE: 0.012450 源论文指标

HydrogenSulfate commented 1 month ago

Model | Shape-Net-Car | | | | 复现指标 volume | surf | Cd | ρd | Transolver | 0.0221 | 0.0797 | 0.0134 | 0.9902 | 相对误差 | 0.06763 | 0.0698 | 0.301 | -0.003 |

Model | Shape-Net-Car | | | | 源指标 | volume | surf | Cd | ρd | Transolver | 0.0207 | 0.0745 | 0.0103 | 0.9935 |

非常感谢你的回复，上面仅展示复现的一个数据集结果，其他数据集也是大差不差，如果这个没问题的话其他应该也没问题

另外关于DrivAerNet++的复现，原论文batch_size为32，我这边由于服务器是实验室一起用的，先跑了个batch_size为4的，效果如下 PointNet： Test MSE: 0.000665, Test MAE: 0.021250, Max MAE: 0.048836 复现指标 Test MSE: 0.000149 Test MAE: 0.009600, Max MAE: 0.012450 源论文指标

第一个ShapeNetCar看起来没太大问题呢。
第二个DrivAerNet++看起来精度差别还是比较大的，可以确认下如果模型中没有BN这种带有历史统计的层，可以尝试使用梯度累加（https://paddlescience-docs.readthedocs.io/zh-cn/latest/zh/user_guide/#24）来训练；另外如果手头算力不太够，可以使用AIStudio进行训练，我们可以帮助申请ATStudio32G的资源

LilaKen commented 1 month ago

非常感谢你提供关于”BN这种带有历史统计的层“这一点的知识信息，感谢你提供关于GPU申请的事项，目前我这边算力足够，等其他跑完我就可以跑了。

HydrogenSulfate commented 1 month ago

非常感谢你提供关于”BN这种带有历史统计的层“这一点的知识信息，感谢你提供关于GPU申请的事项，目前我这边算力足够，等其他跑完我就可以跑了。

训练对齐的话尽量保证batchsize相同，否则梯度累加也不能做到与原batch size完全等价

PaddlePaddle / Paddle