JasonWayne / deep-learning-essay

0 stars 0 forks source link

BETANAS: BalancEd TrAining and selective drop for Neural Architecture Search #22

Open JasonWayne opened 4 years ago

JasonWayne commented 4 years ago

https://arxiv.org/abs/1912.11191

https://arxiv.org/pdf/1912.11191.pdf

JasonWayne commented 4 years ago

Huawei 钟钊团队的文章。

基于ProxyLess,主要修改了两块:

  1. 训练网络参数阶段:不更新网络边的weight,而采用Single Path One-Shot中Balanced Training的做法,随机选择路径训练超网。这个想法很简单,就是避免此时引入架构参数,导致马太效应。
  2. 训练架构参数阶段:人工设定一个阈值alpha,低于该阈值的边不会被激活。这样做时因为一些不用的边,会导致整个超网需要去适应这些错误的输出,产生bias,影响整个超网的能力。因此,在训练架构参数的过程中,不断弃置一些明显错误的结构,可以让超网在训练时更贴合最终的超网结果。