long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[71] Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers #79

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

이는 몇몇 neuron들이 활성화되지 않았기 때문이 아님을 보임. 뉴런들이 활성화될 확률은 아래와 같았음

image

위의 세가지를 확인하기 위해 1) label을 random으로 만들고 2) 이미지를 random으로 주고 3) 데이터를 무한대로 만들었을때의 sparsity는 눈에띄게 변화하지 않았음. 즉 sparsity는 transformer가 내재하고 있는 본성임.

image

ECE : expected calibration error. model prediction에 대한 확률과 실제 그 prediction이 맞았는지에 대한 차이