Some tricks - Githubissues

KarryRen commented 1 month ago

关于深度学习的一些小技巧

KarryRen commented 1 month ago

Some tricks about `LR`.

1. 一定要先从比较小的 LR 开始调起，得到平滑的 Train Loss 曲线才算找到了适当的 LR。 2. SGD 肯定对 LR 更敏感，但是为了省事一般使用 Adam。请注意 Adam 也需要调整 LR，建议从 1e-4 开始调整。

KarryRen commented 1 month ago

Some tricks about Model and Training.

1. 模型的参数量和样本量之间的关系

传统上，只要参数的数量大于要满足的方程数量，我们就可以使用参数化模型来进行数据插值。但在深度学习中，一个令人困惑的现象是，模型训练使用的参数数量比这个经典理论所建议的要多得多。

深度学习中经常会出现各种大型的神经网络，神经网络是执行类人任务的领先 AI 系统。随着它们参数的增多，神经网络已经可以执行各种任务。按照数学的理论，神经网络无需很大就能执行任务，例如在直线 y=2x 中，确定这条直线无需很多参数。但是，现代神经网络的规模通常远远超出预测的要求，这种情况被称为过度参数化。此处我们还可以举一个例子，那就是：两层线性层无法表示 XOR，只有两层的 MLP 才可以（这一部分在工作中感受到过！）。

在论文 “A Universal Law of Robustness via Isoperimetry” 中，来自微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为神经网络扩展成功背后的奥秘提供了新的解释。他们表明，神经网络必须比传统预期规模要大得多，才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性见解。

KarryRen / Karry-Studies-AI

Some tricks #9

关于深度学习的一些小技巧

Some tricks about `LR`.

Some tricks about Model and Training.

KarryRen / Karry-Studies-AI

Some tricks #9

关于深度学习的一些小技巧

Some tricks about LR.

Some tricks about Model and Training.

Some tricks about `LR`.