Closed bonlime closed 4 years ago
Looks good. Let's train some models with this attention module first and validate that it works
@bonlime Ready to merge?
На Imagenet за 90 эпох обычный SE даёт Acc@1 78.988 Acc@5 94.440
, а ECA даёт Acc@1 79.281 Acc@5 94.664
. Там была небольшая разница в конфигах обучения - SE учился на 4хV100, а ECA на 3хV100 и у них был разный lr, т.е. не могу пока точно утверждать что ECA > SE, но как минимум не хуже точно, при том что быстрее и практически не добавляет параметров. Merge
Добавил Efficient Channel Attention из этой статьи Код близок к исходному, но сильно упрощен
Для того чтобы добавить этот модуль пришлось поменять параметр
use_se
(use squeeze excitation) на более общийattn_type
(attention type). Это точно еще пригодится в будущем. Тесты проходит. Краткое описание того, почему это должно работать