long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[116] Data Distributional Properties Drive Emergent In-Context Learning in Transformers #125

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

in-context learning vs in-weight learning

Experimental design

image

black box meta learning 방법론 처럼 image, label 시퀀스가 context로 주어지고 쿼리 이미지가 들어왔을 때 잘 하는지 보는게 in-context learning.

이 논문에서는 1) burstiness 2) a large number of rarely occuring classes 3) multiplicity of labels 4) within-class variation으로 보았음

Burstiness

위의 예시처럼 일부러 busrtiness를 늘린 데이터로 평가해보니 in-context learning의 경우 burstiness가 늘어나면 반대로 in-weight learning은 busrtiness가 늘어나면 성능이 안좋아짐

image

a large number of rarely occuring classes

omniglot을 roatation을 줘가면서 num of classes를 100에서 12800(원래 클래스 1600)까지 늘려가면서 (각 class의 frequency는 줄어서 long-tail 해지는)실험을 해보았다. number of classes가 또 역시 반대로 in context learning은 많을 수록 좋았는데 반대로 in weight learning은 많을 수록 안좋았다.

image

Multiplicity of labels

한 클래스에 대한 label을 여러개로 주면서 해봤을 때 역시 성능이 좋아졌다

image

within-class variation

classs내의 variation을 많이 줘봤는데 이것도 in-context learning 의 경우 variation이 높을 수록 성능이 좋았다

image

Architecture

image

파라미터 수 / depth 등등 다 맞춰서 rnn / lstm 돌렸는데 절대로 in-context learning ability가 나타나지 않았다고.. 왠지는 저자들도 모르겠다 함! we were completely unable to elicit in-context learning in recurrent models, even with the training procedure, number of parameters, and model architecture otherwise matched to the transformer experiments. transformer만 쓴다고 in-context learning이 되는건 아니고 data distribution이 위의 저 3개의 특성을 가져야만 나타난다고 강조.