有监督学习的损失函数总结

meton-robean / ResearchNote

通过issue和README来记录日常学习研究笔记关注机器学习系统，深度学习， LLVM，性能剖视， Linux操作系统内核话题关注 C/C++. JAVA. Python. Golang. Chisel. 编程语言话题 ( Writing Blogs using github issue and markdown! (inculding Machine Learning algs and system, LLVM, Linux kernel, java, python, c++, golang)

74 stars 7 forks source link

神经网络是使用什么如何处理带L1正则化的损失函数的？

作者：Xenophon Tony 链接：https://www.zhihu.com/question/327992018/answer/709912550 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

首先你说，Lasso不是用coordinate descent或LARS实现的么？小孩子才看算法，成年人都看收敛率，本质上来说你可以用任何优化算法来优化Lasso，包括基于梯度的方法。基于梯度的方法有很多，最常见的便是gradient descent，当问题不再处处可导时，可以采用gradient descent的拓展算法subgradient descent。但一般来说，subgradient descent常常令人头疼，其实它并不是一个保证descent的算法，只不过是作为gd的超集，沿用了descent的这个叫法。事实上subgradient descent的收敛率也非常差，除非迫不得已，不会用它来优化Lasso这种非平滑的函数，也很难令Lasso得到稀疏解。有意思的是，Tensorflow里面实现的甚至不是subgradient descent算法，而是忽略所有不可导的地方，也就是说但凡你遇到了这样一个不可导的坏点，它可以永远卡在那里，因为没有梯度也不会更新。这其实也合理，当网络中有大量参数的时候，相较正牌subgradient descent而言，这是保证效率也不失精准性的一种妥协。但是记住，这是相较subgradient descent而言，基于梯度的方法难道没有更好更合理的了么？有的，那也就是优化Lasso的大杀器proximal gradient descent（Lasso优化中大名鼎鼎的ISTA），抛开理论的部分不谈，对于Lasso而言，proximal方法相当把原问题拆解成了两个子问题，首先更新平滑部分的参数（L1以外的部分），拿着更新好的结果，跑一遍proximal operator（soft threshold函数）让它也尽量更接近满足L1的条件，处理过后的才是新的参数。ISTA是Lasso的随机优化中非常经典的一个算法（当然从收敛效率上来说，coordinate descent要高很多，然而即便是CD他的每一步其实做的也是proximal update，又扯远了…）那最有意思的地方来了，神经网络中，有没有这种神乎其神的proximal方法，可以在普通的gradient descent基础上，提高算法的收敛率呢？有的，比如说这一篇Data-Driven Sparse Structure Selection for Deep Neural Networks，就是一篇利用Accelerated Proximal Gradient方法来产生网络的稀疏结构从而对网络进行剪枝的有趣工作～(⁎⁍̴̛ᴗ⁍̴̛⁎)

meton-robean / ResearchNote

有监督学习的损失函数总结 #14

神经网络是使用什么如何处理带L1正则化的损失函数的？