I read this because.. : meta-learning. NAS인데 학습 안하는 거?! 지도교수한테 추천받음
task : Neural Architecture Search
problem : 딥러닝 모델 만드는데 공수가 너무 많이 들고 그래서 이를 해결하기 위한 NAS는 결국 학습을 해야해서 search가 너무 느리다.
idea : 학습을 하지 않고 initialized model을 가지고 최종 성능을 예측할 수 있을까? -> mini batch N개의 sample에서 activation되는 영역을 나누어 code book을 만들고 이걸 데이터간 hamming distance을 통해 N x N Matrix를 만듦.
input/output : model -> score(or rank)
architecture : NAS-Bench-201 이건 결국 CNN 기반인 것 같긴 하다
baseline : cell 예측 기반 NAS(REINFORCE, BOHB), weight share해서 search 시간 줄인 NAS(RSPS, ...)
data : NAS-Bench-201, NDS-DARTS
evaluation : best model의 CIFAR-10, CIFAR-100, ImageNet-16-120의 성능
result : 학습을 안하고 성능 예측 가능. CIFAR-10에 대해서 정해진 search space에서 30초만에 NAS-Bench-201 search space에 있는 것들 중에 92.81%정확도를 가진애를 찾을 수 있었음
contribution : 최초의 학습 안하고 성능 예측 (?) 거의 이건 예술의 영역인데..
correlation이 낮을수록 성능이 좋을 것이다 라는 가정 -> 실제로 CIFAR-10 정확도가 높은 애일 수록 하얌
여기서의 intuition은 이러함
비슷한 binary code를 가진애들은 sample간 더 linear하게 구분하기 어려울 것이고 반대로 input이 잘 구분이 된다면 학습이 더 쉬울 것이다 라고 가정!
score는 아래과 같이 쓸 수있음
ablation
score와 학습 후 정확도의 positive correlation
다른 measure들과의 비교. 순위 상관계수가 높다.
1) sample image 2) 초기화 방법 3) bs 와 상관없이 ordinal이 동일하게 유지됨을 확인
paper, code
TL;DR
Details
NAS-BENCH-201 : https://arxiv.org/abs/2001.00326 search space를 아예 박아놓구 Rank만 측정하도록 한 벤치마크인듯 하다
linear regions에서 binary activation codes
activation activation code들 시각화
correlation이 낮을수록 성능이 좋을 것이다 라는 가정 -> 실제로 CIFAR-10 정확도가 높은 애일 수록 하얌 여기서의 intuition은 이러함 비슷한 binary code를 가진애들은 sample간 더 linear하게 구분하기 어려울 것이고 반대로 input이 잘 구분이 된다면 학습이 더 쉬울 것이다 라고 가정!
score는 아래과 같이 쓸 수있음
ablation
score와 학습 후 정확도의 positive correlation
다른 measure들과의 비교. 순위 상관계수가 높다.
1) sample image 2) 초기화 방법 3) bs 와 상관없이 ordinal이 동일하게 유지됨을 확인
학습 중에도 rank가 유지됨을 확인
위의 score를 가지고 NAS를 하면 ?
최종 성능 : sota는 아니다. search 시간이 매우 작다!