스페셜 토큰의 의미는 PLM의 종류에 상관없이 동일할까?

Why?

이런 질문을 받은 적이 있다

생각을 해보니, 이건 PLM이 무엇이냐에 따라 다를 것 같아, 다음과 같은 답을 드렸었다

음.. 그런데 내가 모든 PLM 논문을 읽어본건 아니라, 각 모델 별로 사전학습 테스크가 어떠한지는 잘 모른다.

그래서 다시 논문을 읽어보면서 [SEP] / [MASK] / [CLS]와 같은 스페셜 토큰의 의미를 미리 알아두고 싶다.

이걸 잘 파악해야 사전학습된 가중치를 최대한 활용할 수 있기 때문이다. 사전학습된 테스크가 무엇인지를 제대로 이해했다면, zero-shot / few-shot learning이 가능할수도 있다.

예를 들어, Cloze task를 학습한 PLM을 잘 활용하면 zero-shot sentiment classification 도 가능하다

예를 들어, NLI를 학습한 PLM을 잘 활용하면("hijack" 하면) zero-shot topic classification이 가능하다

하지만 위처럼 zeroshot, fewshot을 하기 위해선 [MASK] 토큰, [LABEL] 토큰이 어떤 의미를 가지는지 이해해야하고, 이를 위해선 사전학습 테스크에 대한 (너 뭘 공부해봤어?) 이해가 필요하다.

그래서 많이 쓰이는 PLM의 사전학습 테스크를 전부 살펴보고 싶다.