The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives

seopbo commented 4 years ago

어떤 내용의 논문인가요? 👋

TL;DR: 여러가지 실험을 통해 training objective에 따라 Transformer (Enc or Dec)의 hidden representation이 어떻게 변화하는지 보여주고자 하는 논문

Abstract (요약) 🕵🏻‍♂️

We seek to understand how the representations of individual tokens and the structure of the learned feature space evolve between layers in deep neural networks under different learning objectives. We focus on the Transformers for our analysis as they have been shown effective on various tasks, including machine translation (MT), standard left-to-right language models (LM) and masked language modeling (MLM). Previous work used black-box probing tasks to show that the representations learned by the Transformer differ significantly depending on the objective. In this work, we use canonical correlation analysis and mutual information estimators to study how information flows across Transformer layers and how this process depends on the choice of learning objective. For example, as you go from bottom to top layers, information about the past in left-to-right language models gets vanished and predictions about the future get formed. In contrast, for MLM, representations initially acquire information about the context around the token, partially forgetting the token identity and producing a more generalized token representation. The token identity then gets recreated at the top MLM layers.

이 논문을 읽어서 무엇을 배울 수 있는지 간략하게 적어주세요! 🤔

각 training objective가 hidden representation에 어떠한 영향을 미치는지 알(?) 수 있습니다.

이 논문의 아이디어를 적어주세요. (요약하여 적거나, 자세히 적어도 상관없습니다.)

이 논문은 training objective(MT, LM and MLM)에 따른 transformer의 hidden representation의 변화(MI, changes, influence 등)를 정량적인 방법(MI estimation, PWCCA)을 통해 측정하고자 하였습니다. 기본적인 아이디어는 information bottleneck 이론을 따르고 있습니다. -- 읽어보면 좋은 글: lilianweng의 블로그

Training Objective

Encoder from Machine Translation
Language Modeling like GPT
Masked Language Modeling like BERT

Experiments

Mutual Information

monotonic하게 감소하는 MT와 LM과는 달리, MLM은 layer가 올라감에 따라 감소하던 MI가 다시 증가합니다.

Distance using PWCCA

Amount of Change

Amount of Influence

Preserving Token Identity

Preserving Token Position

이 논문의 결론을 적어주세요.

결론은 "해봤다."

감상

저자의 blog에도 적혀 있듯이, "to be honest, there is nothing standard in what we do here". 읽는 내내 논문의 motivation이 납득되지 않아, 간만에 너무 힘든 논문 리딩이었습니다.
- 제목의 evolution부터 납득이 가지 않습니다. 정보의 추가/변화에 따른 latent space 사이의 mapping에 지나지 않는데, evolution이라는 keyword를 사용하였습니다.
- 각 section의 내용들을 하나의 주제로 잡고 깊게 파고드는 대신, 단순히 많은 실험을 반복하고 graph를 해석(?)해주는 것으로 논문이 마무리 됨
- 저자의 표현대로 이미 널리 알려진 방법들을 활용하여 실험을 수행한것이 아님에도 불구하고, 해당 실험을 설계한 이유와 방법론에 대한 설명이 없습니다.
LM은 auto-regressive한 task이므로, MT & MLM과 동등한 비교를 하는 것은 어렵다고 생각합니다.
- 예를 들어 LM의 마지막 hidden representation은 이전까지의 input tokens에 대한 정보를 담고 있어야 합니다. 따라서, 단순히 latest input token과의 MI를 따져보자면 작은 수치를 지닐 수 있습니다.
다만 frequency에 따른 변화 양상과 influence의 양상은 흥미로웠습니다.
- 하지만 PWCCA가 좋은 방법인지는 의문. PWCCA는 linear correlation을 나타내주는 수치인데, non-linear mapping 함수 결과물 사이의 distance를 PWCCA로 측정하는 것이 어떠한 의미를 지니는지, 설득이 부족합니다.

아래는 예시 링크입니다.

https://github.com/aisolab/paper-log/issues/1

diligejy commented 4 years ago

논문 Abstract를 보면 Previous work에서 black-box probing task라는 게 사용되었다는데 이게 뭔지 잘 모르겠습니다.

Taekyoon commented 4 years ago

Mutual Information Estimator에 관해서 참고자료
- https://arxiv.org/pdf/1910.00365.pdf

저도 완전히 다 읽지를 못해서 같이 보면서 이야기하면 좋을 것 같습니다. (MI를 잘 아시는분이 필요합니다..!!)

MLM 모델의 경우 MI가 약간 떨어졌다 회복이 되는 추이를 보이는데 이것이 @bj1123 님이 말씀하신 "input과 같은 데이터를 output으로 예측하기 때문"외에 다른 원인이 있을까요? 그리고 레이어 중간에 MI가 떨어지는 이유가 무엇일까요?
만약에 실제 24 layers BERT나 GPT-2를 실험에 적용했을 때 MI의 추이가 어떤식으로 보일까요?
- 실험 결과와 비슷한 추이를 보일까요?
- GPT-2의 경우 낮아진다 가정을 하면 MI가 더 낮아질까요?
- BERT의 경우 MI가 낮아지다 다시 올라가면 얼마나 떨어지다 다시 회복이 될까요? MI가 제대로 회복이 될 수 있을까요?
"Mutual Information with both input and output" 파트에 보이는 그래프에 src와 dst 간의 MI 수치 차이 범위가 의미가 어떻게 있을까요?
- ML의 경우 src에 대한 MI 변동 폭은 1.2 정도 MLM의 경우 6 정도 입니다. 이 변동 폭에 어떤 의미를 부여해 볼 수 있을까요? ML이 더 src 정보를 preserve할 수 있을까요?
- dst에 대한 MI의 변동 폭은 MLM과 ML 둘다 src에 비해 작습니다. 변동이 작다 하더라도 의미가 있다고 보는게 맞을까요? 의미가 있다는 범주를 어느정도라고 생각할까요?

bj1123 commented 4 years ago

MLM이 LM 보다 pretraining context에 적합하다 라는 주장이 과연 적절한 것인지 의문입니다. 제가 이해하기로는, 이 주장에 대한 주된 근거로 layer 간 token representation의 Mutual Information이 활용되고 있는 것 같습니다 (sec 5, 6이 sec4를 뒷받침하는 구조). 그런데, MLM은 denoising 방식으로 작동하기 때문에 MI가 layer 후반부에서 회복되는 것은 자명한 것으로 생각됩니다 (input과 output이 같기 때문에). 높은 레이어에서 MI가 회복된다는 사실만으로 MLM이 context 학습에 능하다고 주장하는 것은 약간 overstate로 느껴집니다. 요약하자면, MLM의 우월성을 보여주기 위해 MI를 사용하는 것이 과연 정당한가? 입니다.

kh-kim commented 4 years ago

단체 채팅방에도 공유되었지만, https://lena-voita.github.io/posts/emnlp19_evolution.html

이 블로그가 저자 블로그였네요... 어쩐지 퀄리티가.. 논문 읽기 전에 볼 껄 그랬습니다. 논문에는 그림도 없어서 설명이 엄청 애매했는데,, 블로그가 훨씬 clear하네요!

참고 부탁드립니다.

soeque1 commented 4 years ago

MLM이 input representation을 잘 압축하는 것에는 동의가 됩니다만.. LM과 MT의 주요 목적인 sequence generation(next token or sentence prediction)의 역할을 잘 할 수 있는지는 의문입니다. * MT의 대표적인 Enc-Dec구조에서 pretrain을 잘하려면 논문에서 어떤 아이디어들을 가져오면 좋을까요?

kh-kim commented 4 years ago

Mutual Information Estimator에 관해서 참고자료

https://arxiv.org/pdf/1910.00365.pdf

저도 완전히 다 읽지를 못해서 같이 보면서 이야기하면 좋을 것 같습니다. (MI를 잘 아시는분이 필요합니다..!!)

아쉽게도 이 논문에서 사용한 estimation은 링크 주신 논문에서 제안한 방법을 사용하지 않은 것 같습니다. (아래 참고)

사실 이 부분에서도 굉장히 큰 의문이 남아있는데요. 이 paper에서 estimation 방법을 너무 rough하게 적어놓아서, MI가 얼마나 잘 estimation 되는지 잘 모르겠습니당 ㅠ

DataLama commented 4 years ago

본 논문에서 input token 과 layer token representation 간의 Mutual Information이 구체적으로 어떻게 계산되는지 궁금합니다. (@kh-kim님께서 올려주신 저 부분의 계산 방식이 잘 이해가 안됩니다.)

wonhocho commented 4 years ago

이런 느낌이 맞을까요?

MLM : 심사숙고하는 뇌 (정확한 언어 구사 but 말수 적음) LM : 대화를 주도하는 뇌 (말 계속함 but 횡설수설) MT : 번역가(?)의 뇌 (변환 작업 최적화 but 의식을 가지고 있다고 하기엔..)

Beomi commented 4 years ago

MLM이 LM보다 보다 높은 Performance를 보여주는게, 결국 BERT가 GPT보다 더 높은 성능을 보여준 이유 = 더 많은 정보량을 모델에게 제공해주기 때문에, 더 학습을 잘하게 된다. 와 같다고 볼 수 있는 것일까요?

Figure1에서 MLM(주황색)이 올라가는 그래프가 MLM이 성능이 더 좋다, 라고 paper에서 이야기 하지만.. 이게 다른 분들이 Layer후반부에서 같은거로 정답을 보기 때문에 당연히 올라간다, 라고 한다면 가운데 레이어에서 떨어져야 하는 이유가 특별히 있을까요?

Figure4에서 Token Change부분에서 MT는 Token Freq에 따라 비슷한 형태로 dist가 모두 감소하는데, MLM에서는 Recreating Token id를 하기 때문에 '당연하게' Rare token에 대해서는 더 많은 움직임이 필요하다, 라고 하는데, 그렇다면 MLM 학습은 Less freq vocab에 대해서 가능하면 덜 predict하는 방향으로 동작하는 (결국 Language Model에서 Rare 토큰이 등장할 조건부 확률이 낮으니까) 것과 동일한 이유로 보면 되는 것이겠죠?

Figure 12등에서 사용한 tSNE Visualize가 유의미한지 모르겠네요. 이걸 보고 어떤걸 이해해야 하는걸까요.. (CCG Tag의 중요성과 어떤 연관성을 보이는지 잘 모르겠습니다.)

hanjiyoon01 commented 4 years ago

저도... 다른 분들이 궁금해하시는 것과 비슷한 질문인데요.

1) 논문에서 MI를 선택한 이유가 무엇일까요? 2) 논문에서 PCCWA를 선택한 이유가 무엇일까요?

simonjisu commented 4 years ago

저는 논문 초반에 layer 에서 다른 layer 로 이전하면서 token representation의 속성이 변화한다고 하길래 이부분이 좀 관심가지면서 봤는데요.. PWCCA? CCA를 처음 접해서 공부하는데 좀 힘들었는데, PWCCA distance 에 대해서 아직 이해가 덜 되서 설명이 더 필요할것 같습니다 ㅠㅠ

+) 같은 task 내에서 다른 initialization 을 했을 때 유독 MLM만 PWCCA distance가 변화가 있는 것 볼 수 있는데, 이유가 뭘까요? 같은 것을 학습했다면 수치가 비슷해야하지 않을까..라는 생각이 들었습니다.

warnikchow commented 4 years ago

Fig 8에 보면, semantic+syntactic하게 비슷할 수 있는 성분들이 각 모델 (MT, LM, MLM)에서 점차 abstract되며 모이는 양상을 보입니다. 단순히 syntactic하게만 비슷할 수 있는 성분들(유의/반의 관계에 없는 adjective 등)끼리도 유사한 양상을 보일지 궁금합니다.

kh-kim commented 4 years ago

Fig 8에 보면, semantic+syntactic하게 비슷할 수 있는 성분들이 각 모델 (MT, LM, MLM)에서 점차 abstract되며 모이는 양상을 보입니다. 단순히 syntactic하게만 비슷할 수 있는 성분들(유의/반의 관계에 없는 adjective 등)끼리도 유사한 양상을 보일지 궁금합니다.

저는 이 경우에도 너무나도 해석 가능한 방법의 후보들이 많다고 생각합니다. 저는 아래와 같이 해석해보았습니다.

MT의 경우에는 언어쌍에 따라 encoding되는 양상이 매우 다를 수 있다고 생각합니다. 예를 들어 target 언어가 한국어였다면 is, are, was, were가 번역 결과에서 다르게 작용되지 않고, 그로인해 다른 결과가 나왔을 수 있다고 생각합니다.
LM의 경우에도 어순을 중요시 하는 영어의 특성상 be동사 뒤에 나타날 수 있는 단어들이 제한적입니다. 따라서 언어에 따라 결과가 매우 달라질 수 있을 것이라 생각합니다. 더욱이 be 동사는 다른 품사와 더 다른 성격을 가지므로 좀 더 면밀한 분석이 필요할 것 같습니다. 해당 논문은 이러한 부분에 대해서 대충 넘어가는 부분이 아쉽습니다.
MLM의 경우에는 어쩔 수 없이 해당 token을 복원하기 위해서 feed forwarding이 진행되더라도 여전히 단어들이 잘 섞이지 않고, 클러스터가 유지되어야 하는 것 같습니다.

inmoonlight commented 4 years ago

LM은 auto-regressive한 task이므로, MT & MLM과 동등한 비교를 하는 것은 어렵다고 생각합니다.

이 논문의 목적이 learning objective에 따른 token representation 의 변화이므로 적절한 비교군이 아니었나 싶기도 하구요..
MT 도 auto-regressive task 아닌가요..?

Q. 이 논문의 결과를 활용해서 무엇을 해볼 수 있을까요?

modulabs / beyondBERT