Open gaocegege opened 4 years ago
学长,请问你知道有没有工作是让 hyper-parameter optimization 中不同超参数的 trails 共享其中一段的计算吗? 比如对同一个 model 和 dataset,一个 trail 前 100 epochs learning rate 设定为 0.1, 之后变成 0.01,另一个 trail 就一直 lr=0.1, 这样它们就可以重用前一百个 epochs 的结果来减小整体计算量。
我看到一篇文章说这个是他们的系统创新,因为其他 framework 都是把每个 trail 当成黑盒,但感觉这个做法很理所应当啊……
没见过,一般来说不同 trial 的超参数都是不一样而且高维的,很难共享计算的感觉
https://proceedings.mlsys.org/static/paper_files/mlsys/2020/94-Paper.pdf
来源:MLSys'20 Schedule
提出了一个新的超参数搜索算法 ASHA