Closed bonlime closed 3 years ago
Может ты их сначала используешь в обучении на ImageNet? Мне кажется я за 1,5 года в DL видел уже десяток новых модных оптимизаторов (типа RAdam). Хочется убедиться, что он работает не только на бумаге
оки, попробую сначала. в этот оптимизатор я верю чуть больше чем в другие по паре причин: 1) у них есть теоретическое обоснование того что происходит 2) статья от Clova AI которые известны тем, что хорошо шарят 3) в их экспериментах докидывает стабильно
Slowing Down the Weight Norm Increase in Momentum-based Optimizers
https://github.com/clovaai/AdamP