The Physical Systems Behind Optimization Algorithms

在一个人工神经网络的发展跟最优化方法（optimization methods）密不可分。在使用数据集做训练的时候，我们通常通过调整网络的参数来把惩罚（例如 loss function）降低到极小值，来让网络（也就是我们的 "universal approximator"）逼近我们所需要的 approximator，也就是实现我们需要的功能。这样一个过程中，调整参数来降低惩罚，就是在一个极其高维的空间找到我们想要的那个区域。

对于物理学家来说，对于复杂的问题，第一步总是要看这个问题的低阶近似。例如我们要在一个复杂的高尔夫球场找到我们的高尔夫球的运动轨迹，要解决的第一个非平凡的问题，就是球在一个坑底的运动，因为这时候可以把表面做泰勒展开，从而将复杂的地形转换成非常容易解决的谐振子模型，即 harmonic oscillator，再考虑上摩擦，这就变成了 damped harmonic oscillator. 说到底，这是一个找到能量极小值的问题。

对比人工神经网络的而降低惩罚和物理学家的 damped harmonic oscillator，我们很容易看到这两者的相似性。L. Yang, R. Arora, V. Braverman, 和 T. Zhao 四个人写了一篇非常漂亮的解释各种 optimization methods 跟物理里面简单的物理模型的关系。

不过话又说回来，energy-based learning 一直就是在讨论学习与物理系统，特别是能量作为学习系统的指标的问题。L. Yang et al 的论文的关键点在于，他们详细地证明了具体的方法和物理系统的关联。

论文：The Physical Systems Behind Optimization Algorithms
以上论文的科普文：The physics of optimization algorithms
关于 energy-based learning，可以参考 Yann LeCun 等人的A Tutorial on Energy-Based Learning.

https://github.com/data-com/weekly/issues/5

data-com / discussions

The Physical Systems Behind Optimization Algorithms #9