long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[110] Understanding the Role of Self Attention for Efficient Speech Recognition #119

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

image image

audio-to-text transition을 할 때 근처에 있는 (neighbor) 것들에 attend하는 경향이 있다. -> neighbor에 많이 attend하면 diagonality가 커짐 근데 upper layers에서 diagnolatiy가 처치므로 위의 레이어에서 linguistic을 보고 있음을 알 수 있다

그러면 밑에 layer들은 뭘 담당하냐면 Phoneme을 담당하는데 이건 아래 두개 그림을 보면 알 수 있다

image

음소 단위로 attention map을 봤는데 비슷한 발음끼리 attend하는 경향이 위의 레이어에서는 안나타남

(음소단위로 attention map 측정하는 수식 image )

image

아래 레이어들이 Phoneme classification를 더 잘함. 위의 레이어 가서 성능이 안좋아짐.

이러한 발견들을 기반으로 SA를 재사용하는 아키텍쳐를 제안한다.

image

attention map reuse는 여기서 처음 제안된건 아니고 NLP 쪽에는 있었는데 왜 재사용되는지는 분석을 안했다. 근데 이 논문에서는 분석했으니 의미가 있다.

image

V만 레이어별로 새로 project되는 꼴 Sharing Attention Weights for Fast Transformer

https://arxiv.org/pdf/1906.11024.pdf

c.f. ConFormer conv + SA + conv

image