KarryRen / Karry-Studies-AI

Documenting Karry's process of learning artificial intelligence for communication.
MIT License
3 stars 0 forks source link

Some tricks #9

Open KarryRen opened 1 month ago

KarryRen commented 1 month ago

关于深度学习的一些小技巧

KarryRen commented 1 month ago

Some tricks about LR.

1. 一定要先从比较小的 LR 开始调起,得到平滑的 Train Loss 曲线才算找到了适当的 LR 2. SGD 肯定对 LR 更敏感,但是为了省事一般使用 Adam。请注意 Adam 也需要调整 LR,建议从 1e-4 开始调整。

KarryRen commented 1 month ago

Some tricks about Model and Training.

1. 模型的参数量和样本量之间的关系

传统上,只要参数的数量大于要满足的方程数量,我们就可以使用参数化模型来进行数据插值。但在深度学习中,一个令人困惑的现象是,模型训练使用的参数数量比这个经典理论所建议的要多得多。

深度学习中经常会出现各种大型的神经网络,神经网络是执行类人任务的领先 AI 系统。随着它们参数的增多,神经网络已经可以执行各种任务。按照数学的理论,神经网络无需很大就能执行任务,例如在直线 y=2x 中,确定这条直线无需很多参数。但是,现代神经网络的规模通常远远超出预测的要求,这种情况被称为过度参数化。此处我们还可以举一个例子,那就是:两层线性层无法表示 XOR,只有两层的 MLP 才可以(这一部分在工作中感受到过!)。

在论文 “A Universal Law of Robustness via Isoperimetry” 中,来自微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为神经网络扩展成功背后的奥秘提供了新的解释。他们表明,神经网络必须比传统预期规模要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性见解。