GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

Concept

GLUE는 General Language Understanding Evaluation의 약자 -> 다양한 NLU tasks의 성능 체크용
일단 3가지로 나뉘고 각각은 또 2, 3, 4개로 분류하여 총 9가지 tasks
- Single Sentence
  - CoLA : 언어학적(문법적 영어 문장)으로 맞는지
  - SST-2 : 영화 문장에 대한 긍정부정 체크
- Similarity and Paraphrase
  - MRPC : 뉴스 문장 쌍을 사용하여 의미가 동일한지 체크, 클래스 불균형으로 F1도 측정
  - QQP : Quora 질문쌍 모음, MRPC와 유사
  - STS-B : 뉴스 헤드라인, 비디오 및 이미지 캡션, 자연어 추론 데이터셋에서 가져온 문장 쌍. 1~5로 사람이 유사성 점수를 수기로 달아둠. Pearson/Spearman 상관계수로 체크
- Natural Language Inference
  - MNLI : 전체 문장과 가설 문장이 주어지고, 수반/모순/중립 여부 판별. 연설, 소설, 정부 보고서 등 10가지 소스에서 수집된 정보
  - QNLI : SQuAD(Stanford Question Answering Dataset)은 문단 쌍으로 구성된 질문/응답(위키피디아의 문단 중 문장에 대한 질문)인데 이를 문단이 답변이 포함된 답을 하는지 안하는지로 변환
  - RTE : MNLI와 유사
  - WNLI : 대명사가 주어진 문장에서 어떤 대상인지 선택