Open long8v opened 1 year ago
paper
이는 몇몇 neuron들이 활성화되지 않았기 때문이 아님을 보임. 뉴런들이 활성화될 확률은 아래와 같았음
레이어가 더 깊을수록, 넓을 수록 sparsity가 높아짐.
1) label에 human annotation bias가 있어서인지? 2) natural image에 bias가 있어서 인지? 3) 모델이 데이터보다 capacity 높아서인지?
위의 세가지를 확인하기 위해 1) label을 random으로 만들고 2) 이미지를 random으로 주고 3) 데이터를 무한대로 만들었을때의 sparsity는 눈에띄게 변화하지 않았음. 즉 sparsity는 transformer가 내재하고 있는 본성임.
sparsity 덕분에 FLOP이 떨어짐
sparsity를 top-K로 제한했을 때, 성능이 그냥 트랜스포머와 비슷하며 robustness와 confidence에 대한 성능이 좋아짐.
ECE : expected calibration error. model prediction에 대한 확률과 실제 그 prediction이 맞았는지에 대한 차이
paper
TL;DR
Details
이는 몇몇 neuron들이 활성화되지 않았기 때문이 아님을 보임. 뉴런들이 활성화될 확률은 아래와 같았음
레이어가 더 깊을수록, 넓을 수록 sparsity가 높아짐.
1) label에 human annotation bias가 있어서인지? 2) natural image에 bias가 있어서 인지? 3) 모델이 데이터보다 capacity 높아서인지?
위의 세가지를 확인하기 위해 1) label을 random으로 만들고 2) 이미지를 random으로 주고 3) 데이터를 무한대로 만들었을때의 sparsity는 눈에띄게 변화하지 않았음. 즉 sparsity는 transformer가 내재하고 있는 본성임.
sparsity 덕분에 FLOP이 떨어짐
sparsity를 top-K로 제한했을 때, 성능이 그냥 트랜스포머와 비슷하며 robustness와 confidence에 대한 성능이 좋아짐.
ECE : expected calibration error. model prediction에 대한 확률과 실제 그 prediction이 맞았는지에 대한 차이