modulabs / beyondBERT

11.5기의 beyondBERT의 토론 내용을 정리하는 repository입니다.
MIT License
60 stars 6 forks source link

The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives #1

Closed seopbo closed 4 years ago

seopbo commented 4 years ago

어떤 내용의 논문인가요? 👋

TL;DR: 여러가지 실험을 통해 training objective에 따라 Transformer (Enc or Dec)의 hidden representation이 어떻게 변화하는지 보여주고자 하는 논문

Abstract (요약) 🕵🏻‍♂️

We seek to understand how the representations of individual tokens and the structure of the learned feature space evolve between layers in deep neural networks under different learning objectives. We focus on the Transformers for our analysis as they have been shown effective on various tasks, including machine translation (MT), standard left-to-right language models (LM) and masked language modeling (MLM). Previous work used black-box probing tasks to show that the representations learned by the Transformer differ significantly depending on the objective. In this work, we use canonical correlation analysis and mutual information estimators to study how information flows across Transformer layers and how this process depends on the choice of learning objective. For example, as you go from bottom to top layers, information about the past in left-to-right language models gets vanished and predictions about the future get formed. In contrast, for MLM, representations initially acquire information about the context around the token, partially forgetting the token identity and producing a more generalized token representation. The token identity then gets recreated at the top MLM layers.

이 논문을 읽어서 무엇을 배울 수 있는지 간략하게 적어주세요! 🤔

각 training objective가 hidden representation에 어떠한 영향을 미치는지 알(?) 수 있습니다.

이 논문의 아이디어를 적어주세요. (요약하여 적거나, 자세히 적어도 상관없습니다.)

이 논문은 training objective(MT, LM and MLM)에 따른 transformer의 hidden representation의 변화(MI, changes, influence 등)를 정량적인 방법(MI estimation, PWCCA)을 통해 측정하고자 하였습니다. 기본적인 아이디어는 information bottleneck 이론을 따르고 있습니다. -- 읽어보면 좋은 글: lilianweng의 블로그

Training Objective

Experiments

Mutual Information

image monotonic하게 감소하는 MT와 LM과는 달리, MLM은 layer가 올라감에 따라 감소하던 MI가 다시 증가합니다.

Distance using PWCCA

image

image

Amount of Change

image

image

Amount of Influence

image

image

Preserving Token Identity

image

Preserving Token Position

image

이 논문의 결론을 적어주세요.

결론은 "해봤다."

감상

아래는 예시 링크입니다.

https://github.com/aisolab/paper-log/issues/1

diligejy commented 4 years ago
  1. 논문 Abstract를 보면 Previous work에서 black-box probing task라는 게 사용되었다는데 이게 뭔지 잘 모르겠습니다.

Taekyoon commented 4 years ago
  1. Mutual Information Estimator에 관해서 참고자료

저도 완전히 다 읽지를 못해서 같이 보면서 이야기하면 좋을 것 같습니다. (MI를 잘 아시는분이 필요합니다..!!)

  1. MLM 모델의 경우 MI가 약간 떨어졌다 회복이 되는 추이를 보이는데 이것이 @bj1123 님이 말씀하신 "input과 같은 데이터를 output으로 예측하기 때문"외에 다른 원인이 있을까요? 그리고 레이어 중간에 MI가 떨어지는 이유가 무엇일까요?

  2. 만약에 실제 24 layers BERT나 GPT-2를 실험에 적용했을 때 MI의 추이가 어떤식으로 보일까요?

    • 실험 결과와 비슷한 추이를 보일까요?
    • GPT-2의 경우 낮아진다 가정을 하면 MI가 더 낮아질까요?
    • BERT의 경우 MI가 낮아지다 다시 올라가면 얼마나 떨어지다 다시 회복이 될까요? MI가 제대로 회복이 될 수 있을까요?
  3. "Mutual Information with both input and output" 파트에 보이는 그래프에 src와 dst 간의 MI 수치 차이 범위가 의미가 어떻게 있을까요?

    • ML의 경우 src에 대한 MI 변동 폭은 1.2 정도 MLM의 경우 6 정도 입니다. 이 변동 폭에 어떤 의미를 부여해 볼 수 있을까요? ML이 더 src 정보를 preserve할 수 있을까요?
    • dst에 대한 MI의 변동 폭은 MLM과 ML 둘다 src에 비해 작습니다. 변동이 작다 하더라도 의미가 있다고 보는게 맞을까요? 의미가 있다는 범주를 어느정도라고 생각할까요?
bj1123 commented 4 years ago
  1. MLM이 LM 보다 pretraining context에 적합하다 라는 주장이 과연 적절한 것인지 의문입니다. 제가 이해하기로는, 이 주장에 대한 주된 근거로 layer 간 token representation의 Mutual Information이 활용되고 있는 것 같습니다 (sec 5, 6이 sec4를 뒷받침하는 구조). 그런데, MLM은 denoising 방식으로 작동하기 때문에 MI가 layer 후반부에서 회복되는 것은 자명한 것으로 생각됩니다 (input과 output이 같기 때문에). 높은 레이어에서 MI가 회복된다는 사실만으로 MLM이 context 학습에 능하다고 주장하는 것은 약간 overstate로 느껴집니다. 요약하자면, MLM의 우월성을 보여주기 위해 MI를 사용하는 것이 과연 정당한가? 입니다.
kh-kim commented 4 years ago

단체 채팅방에도 공유되었지만, https://lena-voita.github.io/posts/emnlp19_evolution.html

이 블로그가 저자 블로그였네요... 어쩐지 퀄리티가.. 논문 읽기 전에 볼 껄 그랬습니다. 논문에는 그림도 없어서 설명이 엄청 애매했는데,, 블로그가 훨씬 clear하네요!

참고 부탁드립니다.

soeque1 commented 4 years ago
kh-kim commented 4 years ago
  1. Mutual Information Estimator에 관해서 참고자료

저도 완전히 다 읽지를 못해서 같이 보면서 이야기하면 좋을 것 같습니다. (MI를 잘 아시는분이 필요합니다..!!)

아쉽게도 이 논문에서 사용한 estimation은 링크 주신 논문에서 제안한 방법을 사용하지 않은 것 같습니다. (아래 참고)

image

사실 이 부분에서도 굉장히 큰 의문이 남아있는데요. 이 paper에서 estimation 방법을 너무 rough하게 적어놓아서, MI가 얼마나 잘 estimation 되는지 잘 모르겠습니당 ㅠ

DataLama commented 4 years ago

본 논문에서 input token 과 layer token representation 간의 Mutual Information이 구체적으로 어떻게 계산되는지 궁금합니다. (@kh-kim님께서 올려주신 저 부분의 계산 방식이 잘 이해가 안됩니다.)

wonhocho commented 4 years ago

이런 느낌이 맞을까요?

MLM : 심사숙고하는 뇌 (정확한 언어 구사 but 말수 적음) LM : 대화를 주도하는 뇌 (말 계속함 but 횡설수설) MT : 번역가(?)의 뇌 (변환 작업 최적화 but 의식을 가지고 있다고 하기엔..)

Beomi commented 4 years ago

MLM이 LM보다 보다 높은 Performance를 보여주는게, 결국 BERT가 GPT보다 더 높은 성능을 보여준 이유 = 더 많은 정보량을 모델에게 제공해주기 때문에, 더 학습을 잘하게 된다. 와 같다고 볼 수 있는 것일까요?

Figure1에서 MLM(주황색)이 올라가는 그래프가 MLM이 성능이 더 좋다, 라고 paper에서 이야기 하지만.. 이게 다른 분들이 Layer후반부에서 같은거로 정답을 보기 때문에 당연히 올라간다, 라고 한다면 가운데 레이어에서 떨어져야 하는 이유가 특별히 있을까요?

Figure4에서 Token Change부분에서 MT는 Token Freq에 따라 비슷한 형태로 dist가 모두 감소하는데, MLM에서는 Recreating Token id를 하기 때문에 '당연하게' Rare token에 대해서는 더 많은 움직임이 필요하다, 라고 하는데, 그렇다면 MLM 학습은 Less freq vocab에 대해서 가능하면 덜 predict하는 방향으로 동작하는 (결국 Language Model에서 Rare 토큰이 등장할 조건부 확률이 낮으니까) 것과 동일한 이유로 보면 되는 것이겠죠?

hanjiyoon01 commented 4 years ago

저도... 다른 분들이 궁금해하시는 것과 비슷한 질문인데요.

1) 논문에서 MI를 선택한 이유가 무엇일까요? 2) 논문에서 PCCWA를 선택한 이유가 무엇일까요?

simonjisu commented 4 years ago

저는 논문 초반에 layer 에서 다른 layer 로 이전하면서 token representation의 속성이 변화한다고 하길래 이부분이 좀 관심가지면서 봤는데요.. PWCCA? CCA를 처음 접해서 공부하는데 좀 힘들었는데, PWCCA distance 에 대해서 아직 이해가 덜 되서 설명이 더 필요할것 같습니다 ㅠㅠ

+) 같은 task 내에서 다른 initialization 을 했을 때 유독 MLM만 PWCCA distance가 변화가 있는 것 볼 수 있는데, 이유가 뭘까요? 같은 것을 학습했다면 수치가 비슷해야하지 않을까..라는 생각이 들었습니다.

warnikchow commented 4 years ago

Fig 8에 보면, semantic+syntactic하게 비슷할 수 있는 성분들이 각 모델 (MT, LM, MLM)에서 점차 abstract되며 모이는 양상을 보입니다. 단순히 syntactic하게만 비슷할 수 있는 성분들(유의/반의 관계에 없는 adjective 등)끼리도 유사한 양상을 보일지 궁금합니다.

kh-kim commented 4 years ago

Fig 8에 보면, semantic+syntactic하게 비슷할 수 있는 성분들이 각 모델 (MT, LM, MLM)에서 점차 abstract되며 모이는 양상을 보입니다. 단순히 syntactic하게만 비슷할 수 있는 성분들(유의/반의 관계에 없는 adjective 등)끼리도 유사한 양상을 보일지 궁금합니다.

저는 이 경우에도 너무나도 해석 가능한 방법의 후보들이 많다고 생각합니다. 저는 아래와 같이 해석해보았습니다.

  1. MT의 경우에는 언어쌍에 따라 encoding되는 양상이 매우 다를 수 있다고 생각합니다. 예를 들어 target 언어가 한국어였다면 is, are, was, were가 번역 결과에서 다르게 작용되지 않고, 그로인해 다른 결과가 나왔을 수 있다고 생각합니다.
  2. LM의 경우에도 어순을 중요시 하는 영어의 특성상 be동사 뒤에 나타날 수 있는 단어들이 제한적입니다. 따라서 언어에 따라 결과가 매우 달라질 수 있을 것이라 생각합니다. 더욱이 be 동사는 다른 품사와 더 다른 성격을 가지므로 좀 더 면밀한 분석이 필요할 것 같습니다. 해당 논문은 이러한 부분에 대해서 대충 넘어가는 부분이 아쉽습니다.
  3. MLM의 경우에는 어쩔 수 없이 해당 token을 복원하기 위해서 feed forwarding이 진행되더라도 여전히 단어들이 잘 섞이지 않고, 클러스터가 유지되어야 하는 것 같습니다.
inmoonlight commented 4 years ago

LM은 auto-regressive한 task이므로, MT & MLM과 동등한 비교를 하는 것은 어렵다고 생각합니다.

Q. 이 논문의 결과를 활용해서 무엇을 해볼 수 있을까요?