Closed seopbo closed 4 years ago
์ ๋ ผ๋ฌธ Multilinuual BERT(mBERT)๋ Language์ ๋ํ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์๋ Language-agnostic ์ ์ฅ์ ์ผ๋ก ์ค๋ช ํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๊ตฌ์กฐ๊ฐ Input์ผ๋ก Language ์ ๋ณด๋ฅผ ์ฃผ๋ ๋ชจํ ๋๋น ์ด๋ ํ ์ฅ๋จ์ ์ด ์๋ ์ง ๊ถ๊ธํฉ๋๋ค.
๋ค๋ฅธ ์) mBART(https://arxiv.org/abs/2001.08210), XLM(https://arxiv.org/abs/1901.07291) ๋ฑ ๋ค๋ฅธ Multilingual ์ํคํ ์ณ์์ Language token(special token) ํน์ Language embedding(token type ids)์ ํ์ฉํฉ๋๋ค.
=> ์๋ต: mBERT ์ฅ์ : ์ธ์ด๋ฅผ ๋ฐ๋ก ์ถ์ ์ํด๋ ๋๋ค ๋จ์ : encoding์ ๊ด์ฐฎ์ ์ ์์ผ๋ decoding ์ ํ ์ธ์ด ํ ํฐ์ด ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ฒ ๊ฐ๋ค.
Multilingual language๋ก ํ์ตํ ๋ชจ๋ธ์ ์ ์ฉํ๋ ์ฌ๋ก๋.. (๋ชจ๋ ์ธ์ด ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ์ํฉ์์) ๋ค๊ตญ์ด๋ฅผ ์ง์ํด์ผ ํ๋ ์๋น์ค๋ผ๋ ์ ์๊ฐ์ด ๋ง์๊น์? ํน์ ์ธ์ด๋ง ์ง์ํ๋ ๊ฒฝ์ฐ์๋ Multilingual language ํ์ต์ ์ฅ์ ์ด ์์๊น์?
๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์์์ธ์ด ๋ด์ NLP ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ, single language model์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค Multilingual Bert๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ๋์์ด ๋ ๊น์?
๋ ผ๋ฌธ๊ณผ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ์ง๋ฌธ์ ์๋๋๋ค
3.2์์, Table 4์ ์ค๋ฅธ์ชฝ์์, ์ ์๋ค์ ์ด๋ค cross-script transfer์ด ๋ค๋ฅธ pair๋ณด๋ค less accurateํ๋ค๋ ์์๋ก English์ Bulgarian, ๊ทธ๋ฆฌ๊ณ Japanese๋ฅผ ๋ค๋ฉฐ, typological feature (SVO or Adj/Noun order)๋ฅผ ์ด์ ์ ํ๋๋ก ์ ์ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ์ค ์ด ๊ณผ์ ์์ ๋น๊ต๊ฐ ์ ๋๋ก ๋๋ ค๋ฉด, word order์ script ์ค ํ๋๋ง ๋ค๋ฅธ ๊ฒฝ์ฐ๊ฐ ์์ผ ๋์ง ์์๋ ํ๋ ์๊ฐ์ด ๋ญ๋๋ค (e.g., en-zh / zh-ja?).
English BERT๋ก ํ์ตํ MT์์ Vocab Overlap์ด ๋ ๋ง์ ์ํฅ์ ๋ผ์น๊ณ , mBERT๋ณด๋ค ์ฑ๋ฅ์ ํ๋ฝ์ด ๋ํ๋๋๊ฒ 1) ๊ฒฐ๊ตญ BERT๊ฐ ๋ฐ๋ผ๋ณธ ์ ์ฒด ๋ฐ์ดํฐ๋ ๋๋ฌธ์ผ์ง 2) ๋ง์ฝ ๋ฐ์ดํฐ๋์ ๋์ผํ๊ฒ ์ ํํ๋ค๊ณ ํ๋๋ผ๋ ์ฌ์ ํ mBERT๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ด ๋์ฌ์ง 3) ๋ง์ ์์ด ๋ฐ์ดํฐ EngBERT vs (์๋์ ์ผ๋ก ์ ์๋) mBERT ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ ์ง๋ ๊ถ๊ธํ๋ค์.
๊ทธ๋ฆฌ๊ณ Subword๋ก ๊ตฌ๋ณ์ ํ๋๋ฐ.. ์๋ฅผ๋ค์ด ์์ด/ํ๊ตญ์ด๊ฐ ์์ธ ๋ฐ์ดํฐ(๋น์ฅ ์ฐ๋ฆฌ ์ด์๋๊ธ๋ค๋ง ํด๋..)๋ก ํ์ตํ ๋ ์ด๊ฒ ๊ฒน์น๋ ๋น์จ์ด ๋๋ค๊ณ ๋ณผ ์ ์๋๊ฑธ๊น์? -> ์ด๋ Positional(Word Order) Info๊ฐ BERT์๊ฒ ์ผ๋ง๋ '๋ ์ ํ์ตํ๊ฒ ํ๋' ๋์์ด ๋ ๊น์?
(ํ์ฌ ์์ด๋๋ก ๋ฌ์์ ์ง์ฐ๊ณ ๋ค์ ๋ต๋๋คใ _ใ ์๋ ๋ ๋ฒ ๋ฐ์ผ์ ๋ถ๋ค ์ฃ์กํด์)
1) vocab overlap์ด ํฐ ์ํฅ์ ๋ฏธ์น์ง ์์ ์ด์ ๋ ์ด์ฐจํผ ๊ณต๊ธฐํ๋ token ๊ฐ์ ๊ด๊ณ๊ฐ ์๋ฒ ๋ฉ์ ์ํฅ์ ๋ฏธ์น๊ธฐ ๋๋ฌธ์ผ๊น์?
2) ์ธ์ด ์ ํ์ ๋๋๋ ๊ธฐ์ค์ธ WALS features(https://wals.info/)๊ฐ ๊ต์ฅํ ํฅ๋ฏธ๋ก์ด๋ฐ, ๊ณผ์ฐ ์ด ํน์ฑ๋ค์ด ์๋ฒ ๋ฉ์ ์ ๋๋ก ๋ฐ์์ด ๋์ด ์์๊น์? ์ผ๋ณธ์ด์ ๊ฒฝ์ฐ word piece๊ฐ ์ด๋ค ๊ฒฝํฅ์ ๋ณด์ด๋ ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง ํ ํฌ๋์ด์ง ๋จ์๊ฐ 3๊ฐ๋ ๋๋๋ฐ, ํ๋๋ ํํ์์ ๊ฐ๊น์ด ์ต์ ๋จ์, ํ๋๋ ๋ฌธ๋ฒ์ ์ธ ์ฐ์ด๊น์ง ํฌ๊ดํ๋ ๋จ์, ํ๋๋ ์ด์ (ๆ็ฏ, bunsetsu) ๋จ์์ธ๋ฐ subword๊ฐ ์ ์ธ ๋จ์ ์ค ์ด๋ ๊ฒ์ ๊ฐ๊น๋์ ๋ฐ๋ผ์ ๋ฌธ๋ฒ๋ฒ์ฃผ๋ฅผ ๋๋๋ ๊ฒ์ด ์๋นํ ๋ฌ๋ผ์ง ๊ฒ ๊ฐ์์. ํ๊ตญ์ด์ ๊ฒฝ์ฐ๋ adjective(ํ์ฉ์ฌ)์ ํน์ฑ์ด ์์ด์ ์๋นํ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์๋ฒ ๋ฉ์ ์ด๋ป๊ฒ ๋ฐ์์ด ๋์์ ์ง ๊ถ๊ธํฉ๋๋ค. ํนํ POS ํ๊ฐ ๋ฐ์ดํฐ์ธ UD๋ ํ๊ตญ์ด๋ ์ด์ ๋จ์, ์ผ๋ณธ์ด๋ ์ด์ ๋จ์์๋ค๊ฐ SUW๊ธฐ๋ฐ์ผ๋ก ๋ณ๊ฒฝํด๋์ ์ด๋ค ์์ผ๋ก ์ฒ๋ฆฌ๋์๋ ์ง๋ ๊ถ๊ธํ๋ค์.
cross lingual model transfer ์ ์ฑ๋ฅ๋น๊ต์, ์ ์๋ typologically ๋น์ทํ ์ธ์ด๋ค์์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๋๋ฐ, ๋ฌผ๋ก ์ด ์ด์ ๋ ์๊ฒ ์ง๋ง ์ ์ด์ ํ๋ฆฌํธ๋ ์ด๋ ๋จ๊ณ์์ ์ฌ์ฉ๋ ๊ฐ ์ธ์ด๋ค์ ๋ฐ์ดํฐ ์ ์์ฒด๊ฐ ์ค๊ตฌ๋๋ฐฉ์ผ๋ก ๋ฌ๋๋ค๋ ๊ฒ๋ ํ ์์ธ์ด ๋ ์ ์์ง ์์๊น ํ๋ ์๊ฐ์ด ๋๋ค์.
Code-switching ์ด๋ผ๋ ๋ฌธ์ ๊ฐ ํฅ๋ฏธ๋ก์ด๋ฐ, NMT์ ์์ด์๋ ์ค์ํ๊ฒ ๋ค๋ฃจ์ด์ง ๋ฌธ์ ์ผ ๊ฒ ๊ฐ์ต๋๋ค. ๋ฒ์ญ๊ธฐ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ์ค ๋, Code-switching ๊ฐ์ ๋ฌธ์ ๋ค์ ์ด๋ป๊ฒ ์ ๊ทผํ๊ณ ๊ณ์ ๊ฐ์? ์๊ฐํด๋ณด๋ ์ด ์ง๋ฌธ๋ CS ์ฌ๋ก๊ฐ ๋์ด๊ฐ๊ณ ์๋ ๊ฒ ๊ฐ๋ค์..
์ธ์ด ์ ํํ์ ์ผ๋ก ๋น์ทํ ์ธ์ด ๊ฐ ํธ๋์คํผ๊ฐ ๋ ์๋๋ค๋ ์ฌ์ค์ ์์ด ๊ถ๊ธํ ์ ์ด ์๊ฒผ์ต๋๋ค. MLM์ ํตํ ์ฌ์ ํ์ต์ด Representation ํ์ต์๋ ํฐ ๋์์ด ๋์ง๋ง ๋ฌธ์ฅ ๊ตฌ์กฐ์ ๊ฐ์ Syntacticํ ์ง์์ ๋ง์ด ํ์ตํ์ง ๋ชปํ๋๊ฒ ์๋๊น๋ผ๋ ์๊ฐ์ด ๋ค์๋๋ฐ, ๋ค๋ฅธ ๋ถ๋ค์ ์๊ฒฌ๋ ๊ถ๊ธํฉ๋๋ค !
์ ๋ ผ๋ฌธ Multilinuual BERT(mBERT)๋ Language์ ๋ํ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์๋ Language-agnostic ์ ์ฅ์ ์ผ๋ก ์ค๋ช ํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๊ตฌ์กฐ๊ฐ Input์ผ๋ก Language ์ ๋ณด๋ฅผ ์ฃผ๋ ๋ชจํ ๋๋น ์ด๋ ํ ์ฅ๋จ์ ์ด ์๋ ์ง ๊ถ๊ธํฉ๋๋ค.
๋ค๋ฅธ ์) mBART(https://arxiv.org/abs/2001.08210), XLM(https://arxiv.org/abs/1901.07291) ๋ฑ ๋ค๋ฅธ Multilingual ์ํคํ ์ณ์์ Language token(special token) ํน์ Language embedding(token type ids)์ ํ์ฉํฉ๋๋ค.
=> ์๋ต: mBERT ์ฅ์ : ์ธ์ด๋ฅผ ๋ฐ๋ก ์ถ์ ์ํด๋ ๋๋ค ๋จ์ : encoding์ ๊ด์ฐฎ์ ์ ์์ผ๋ decoding ์ ํ ์ธ์ด ํ ํฐ์ด ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ฒ ๊ฐ๋ค.
๊ฐ์ ์ ์์ ์ต๊ทผ ๋ ผ๋ฌธ์์๋ cs์ ํธ์๋ฅผ ์ํด์ language embedding์ ์ญ์ ํ๋ค๊ณ ํ๋ค์ https://arxiv.org/abs/1911.02116
- Code-switching ์ด๋ผ๋ ๋ฌธ์ ๊ฐ ํฅ๋ฏธ๋ก์ด๋ฐ, NMT์ ์์ด์๋ ์ค์ํ๊ฒ ๋ค๋ฃจ์ด์ง ๋ฌธ์ ์ผ ๊ฒ ๊ฐ์ต๋๋ค. ๋ฒ์ญ๊ธฐ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ์ค ๋, Code-switching ๊ฐ์ ๋ฌธ์ ๋ค์ ์ด๋ป๊ฒ ์ ๊ทผํ๊ณ ๊ณ์ ๊ฐ์? ์๊ฐํด๋ณด๋ ์ด ์ง๋ฌธ๋ CS ์ฌ๋ก๊ฐ ๋์ด๊ฐ๊ณ ์๋ ๊ฒ ๊ฐ๋ค์..
๋์ฝ๋๋ฅผ ๋๊ณ ์๊ฐํด๋ณด๋ฉด, ๊ฒฐ๊ตญ ์ธ์ด๋ชจ๋ธ์ด code-switched corpus๋ฅผ ๋ด์ผ maximum likelihood ๊ด์ ์์ code-switching ๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋ด๋์ ์ ์์ง ์์๊น์? ๋๋ ์ถ๊ฐ์ ์ธ contraint์ ์ฃผ๋ ๋ฐฉ๋ฒ์ด ์์ง ์์๊น์..
- Code-switching ์ด๋ผ๋ ๋ฌธ์ ๊ฐ ํฅ๋ฏธ๋ก์ด๋ฐ, NMT์ ์์ด์๋ ์ค์ํ๊ฒ ๋ค๋ฃจ์ด์ง ๋ฌธ์ ์ผ ๊ฒ ๊ฐ์ต๋๋ค. ๋ฒ์ญ๊ธฐ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ์ค ๋, Code-switching ๊ฐ์ ๋ฌธ์ ๋ค์ ์ด๋ป๊ฒ ์ ๊ทผํ๊ณ ๊ณ์ ๊ฐ์? ์๊ฐํด๋ณด๋ ์ด ์ง๋ฌธ๋ CS ์ฌ๋ก๊ฐ ๋์ด๊ฐ๊ณ ์๋ ๊ฒ ๊ฐ๋ค์..
- ์ธ์ด ์ ํํ์ ์ผ๋ก ๋น์ทํ ์ธ์ด ๊ฐ ํธ๋์คํผ๊ฐ ๋ ์๋๋ค๋ ์ฌ์ค์ ์์ด ๊ถ๊ธํ ์ ์ด ์๊ฒผ์ต๋๋ค. MLM์ ํตํ ์ฌ์ ํ์ต์ด Representation ํ์ต์๋ ํฐ ๋์์ด ๋์ง๋ง ๋ฌธ์ฅ ๊ตฌ์กฐ์ ๊ฐ์ Syntacticํ ์ง์์ ๋ง์ด ํ์ตํ์ง ๋ชปํ๋๊ฒ ์๋๊น๋ผ๋ ์๊ฐ์ด ๋ค์๋๋ฐ, ๋ค๋ฅธ ๋ถ๋ค์ ์๊ฒฌ๋ ๊ถ๊ธํฉ๋๋ค !
์๊ฐ์ด ์ง์ฒด๋์ ์ ๊ฐ ๋์ค์ ์ ๋ฆฌํด๋์๊ฒ์,
3.2์์, Table 4์ ์ค๋ฅธ์ชฝ์์, ์ ์๋ค์ ์ด๋ค cross-script transfer์ด ๋ค๋ฅธ pair๋ณด๋ค less accurateํ๋ค๋ ์์๋ก English์ Bulgarian, ๊ทธ๋ฆฌ๊ณ Japanese๋ฅผ ๋ค๋ฉฐ, typological feature (SVO or Adj/Noun order)๋ฅผ ์ด์ ์ ํ๋๋ก ์ ์ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ์ค ์ด ๊ณผ์ ์์ ๋น๊ต๊ฐ ์ ๋๋ก ๋๋ ค๋ฉด, word order์ script ์ค ํ๋๋ง ๋ค๋ฅธ ๊ฒฝ์ฐ๊ฐ ์์ผ ๋์ง ์์๋ ํ๋ ์๊ฐ์ด ๋ญ๋๋ค (e.g., en-zh / zh-ja?).
- en-zh๋ en-ja๋ณด๋ค, ํน์ zh-ja๋ en-ja๋ณด๋ค transfer์ด ์ ๋ ๊น์?
- ๋ํ, ja๊ฐ en, bg์ ๋ค๋ฅด๊ฒ agglutinative์ธ ๊ฒ์ ๊ณ ๋ ค๋์ง ์์๋๋ฐ, BERT์ tokenization ํน์ฑ ์ agglutinativeํ ์ฑ์ง์ด ์ํฅ์ ๋ฏธ์น์ง๋ ์์์๊น์?
- ๋ง์ง๋ง์ผ๋ก, ๋ง์ฝ word order๊ฐ ํ๋์ ์ด์ ๋ผ๋ฉด, multilingual manner์์ M-XLNet์ด M-BERT๋ณด๋ค ๋ ์ cross-lingual transfer์ ๋ณด์ฌ์ฃผ๊ฒ ๋ ๊น์?
์๊ฐ์ด ์ ์ฒด๋์ด ๋ฐ๋ก ์ ๋ฆฌํ๊ฒ์ต๋๋ค.
@wonhocho
Multilingual language๋ก ํ์ตํ ๋ชจ๋ธ์ ์ ์ฉํ๋ ์ฌ๋ก๋.. (๋ชจ๋ ์ธ์ด ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ์ํฉ์์) ๋ค๊ตญ์ด๋ฅผ ์ง์ํด์ผ ํ๋ ์๋น์ค๋ผ๋ ์ ์๊ฐ์ด ๋ง์๊น์? ํน์ ์ธ์ด๋ง ์ง์ํ๋ ๊ฒฝ์ฐ์๋ Multilingual language ํ์ต์ ์ฅ์ ์ด ์์๊น์?
์ ๊ฐ์ธ์ ์ธ ์๊ฒฌ์ ํน์ ์ธ์ด์ ๋ํด์๋ ๊ทธ ์ธ์ด๋ก ํ์ตํ ๋ชจ๋ธ์ด ์ข๊ธฐ ๋๋ฌธ์, ํน์ ์ธ์ด๋ง ์ง์ํ๋ ํ๊ฒฝ์์๋ M-BERT์ ์ฅ์ ์ด ๋จ์ด์ง๋ ๊ฒ ๊ฐ์ต๋๋ค!
@DataLama
๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์์์ธ์ด ๋ด์ NLP ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ, single language model์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค Multilingual Bert๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ๋์์ด ๋ ๊น์?
์์ ์ง๋ฌธ์ ๋ํ ๋ต๊ณผ ์ฐ๊ฒฐ๋ ์ ์์ ๊ฒ ๊ฐ์์! ๋ค low-resource language ์ ๊ฒฝ์ฐ M-BERT ๊ฐ ๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค ใ ใ
@bj1123
๋ ผ๋ฌธ๊ณผ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ์ง๋ฌธ์ ์๋๋๋ค input language์ ๋ํ ์ ๋ณด๋ ํจ๊ป ๊ณ ๋ คํ๋ multilingual language model์ ์ด๋ค ๊ฒ์ด ์๋์? ์ธ์ด์ ํน์ง์ด ์ฑ๋ฅ์ ์ ์๋ฏธํ ์ํฅ์ ๋ฏธ์น๋ค๋ ์ฌ์ค์ด ๋ณด๊ณ ๋ ์ ์ ๋ฏธ๋ค ์ง์ํด๋ณด๋ฉด, input language marker์ ์ฌ์ฉ์ด ์ถฉ๋ถํ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค๊ธด ํฉ๋๋ค. multilingual language model์ด unsupervised ๋ฌด์ (e.g. MT)์ ์ ์ฉ๋ ์ฌ๋ก๊ฐ ์์๊น์?
input lang ์ ๋ํ ์ ๋ณด = token id ์ ๋๋ก ๋ณธ๋ค๋ฉด, Googleโs Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด decoding ์์ token id ๋ฅผ ์ฌ์ฉํด์ ๋ฒ์ญํฉ๋๋ค!
@Taekyoon
Figure 3: Accuracy of nearest neighbor translation for EN-DE, EN-RU, and HI-UR. ์ด ๋ด์ฉ์์ match accuracy๊ฐ ๋ง์ง๋ง ๋ ์ด์ด๋ก ๊ฐ๋ฉด์ ๋จ์ด์ง๋๋ฐ ์ ์ด๋ด๊น์?
์ด ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ๋ง์ง๋ง ๋ ์ด์ด์์๋ ์ธ์ด specific ํ token ์ generate ํด์ผํ๋ฏ๋ก ์ธ์ด์ ํน์ง์ด ์ข ๋ ๋ฐ์๋ representation ์ด ๋ํ๋๊ธฐ ๋๋ฌธ์ธ ๊ฒ ๊ฐ์ต๋๋ค. Voita ์ The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives ๋ ผ๋ฌธ์์๋ ๋น์ทํ ๊ฒฐ๋ก ์ด ๋์ถ๋ ๊ฒ ๊ฐ์ต๋๋ค.
@oglee815
cross lingual model transfer ์ ์ฑ๋ฅ๋น๊ต์, ์ ์๋ typologically ๋น์ทํ ์ธ์ด๋ค์์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๋๋ฐ, ๋ฌผ๋ก ์ด ์ด์ ๋ ์๊ฒ ์ง๋ง ์ ์ด์ ํ๋ฆฌํธ๋ ์ด๋ ๋จ๊ณ์์ ์ฌ์ฉ๋ ๊ฐ ์ธ์ด๋ค์ ๋ฐ์ดํฐ ์ ์์ฒด๊ฐ ์ค๊ตฌ๋๋ฐฉ์ผ๋ก ๋ฌ๋๋ค๋ ๊ฒ๋ ํ ์์ธ์ด ๋ ์ ์์ง ์์๊น ํ๋ ์๊ฐ์ด ๋๋ค์.
๋์ํฉ๋๋ค! @Beomi ๋๋ ๋น์ทํ ์๋ฌธ์ ๊ฐ์ง ๊ฒ ๊ฐ์์ ใ ใ
Abstract (์์ฝ) ๐ต๐ปโโ๏ธ
In this paper, we show that Multilingual BERT (M-BERT), released by Devlin et al. (2018) as a single language model pre-trained from monolingual corpora in 104 languages, is surprisingly good at zero-shot cross-lingual model transfer, in which task-specific annotations in one language are used to fine-tune the model for evaluation in another language. To understand why, we present a large number of probing experiments, showing that transfer is possible even to languages in different scripts, that transfer works best between typologically similar languages, that monolingual corpora can train models for code-switching, and that the model can find translation pairs. From these results, we can conclude that M-BERT does create multilingual representations, but that these representations exhibit systematic deficiencies affecting certain language pairs.
์ด๋ค ๋ด์ฉ์ ๋ ผ๋ฌธ์ธ๊ฐ์? ๐
์ด ๋ ผ๋ฌธ์ ๊ฒฐ๋ก ์ ์ ์ด์ฃผ์ธ์.
์ด ๋ ผ๋ฌธ์ ์์ด๋์ด๋ฅผ ์ ์ด์ฃผ์ธ์. (์์ฝํ์ฌ ์ ๊ฑฐ๋, ์์ธํ ์ ์ด๋ ์๊ด์์ต๋๋ค.)
Main Question: ๋ฌด์์ด M-BERT์ zero-shot cross-lingual transferability๋ฅผ ๋ง๋ค์ด๋ด๋๊ฐ?
0. Preliminaries
1. NER task
PER
), organizations (ORG
), locations (LOC
) and miscellaneous names (MISC
)nl
,es
(2002) /en
,de
(2003) ์ด 4๊ฐ + in-house dataset with 16 languages (Arabic, Bengali, Czech, German, English, Spanish, French, Hindi, Indonesian, Italian, Japanese, Korean, Portuguese, Russian, Turkish, and Chinese)en
)[PER Wolff ] , currently a journalist in [LOC Argentina ] , played with [PER Del Bosque ] in the final years of the seventies in [ORG Real Madrid ] .
2. POS task
ko
):3. Code-switching (CS) and Transliterate (Tlit) task
Hate speech๋ฅผ investigateํ๊ธฐ ์ํ social media platform์ผ๋ก๋ ๋ํ์ ์ผ๋ก Twitter๊ฐ ๋ง์ด utilize๋๋ฉฐ, ์ข ์ข facebook๋ consider๋๋ค.
(ref. @warnikchow)I thought เคฎเฅเคธเคฎ different เคนเฅเคเคพ เคฌเคธ fog เคนเฅ
I thought mosam different hoga bas fog hy
1. M-BERT ์ cross-lingual transferability ๋ vocab overlap ๋๋ฌธ์ผ๊น? โก๏ธ NO
2. M-BERT์ cross-lingual transferability ๋ ์ธ์ด์ typological ํน์ง ๋๋ฌธ์ผ๊น? โก๏ธ YES
ur
โhi
(91%) whileen
โja
(49.4%) (๋ ๋ค ๋ค๋ฅธ script ๋ฅผ ์ฌ์ฉํ๋ ์ธ์ด์, a.k.a vocab overlap ~= 0)3. M-BERT์ cross-lingual transferability ๋ CS ํน์ Tlit ๊น์ง ์ ์ฉ๋ ์ ์์๊น? โก๏ธ CS (YES) / Tlit (NO)
4. M-BERT์ feature space
๋ ผ๋ฌธ์ ๋ํ (๊ฐ์ธ์ ์ธ) ์๊ฐ
1. vocab overlap ์คํ์์ EN-BERT์์ ๋น๊ต๋ ์ ๋นํ๊ฐ?
unk
์ผ๋ก ์ธ์๋ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ์ transfer๋ ๊ณ ์ฌํ๊ณ fine-tuning๋ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ด ๋๋ฌธ์ ๋ ผ๋ฌธ์์ EN-BERT์ XLM์ ๋น๊ตํ๋๋ฐ์, Indo-european ์ ๋ํด์๋ง ๋์์์ต๋๋ค.es
์ธ ๊ฒฝ์ฐPor su parte , el Abogado General de Victoria , Rob Hulls , indicรณ que no hay nadie que controle que las informaciones contenidas en CrimeNet son veraces .
Por su parte , el Ab ##oga ##do General de Victoria , Rob Hull ##s , ind ##ic ##รณ que no hay nadie que controle que las informa ##ciones conte ##nida ##s en Crime ##Net son vera ##ces .
Po ##r su part ##e , el A ##bo ##gado General de Victoria , Rob Hull ##s , in ##dic ##รณ que no hay na ##die que control ##e que las inform ##ac ##ione ##s con ##ten ##idas en Crime ##Net son ve ##race ##s .
ko
์ธ ๊ฒฝ์ฐ์ธ์ด(่จ่ช)์ ๋ํ ์ ์๋ ์ฌ๋ฌ๊ฐ์ง ์๋๊ฐ ์์๋ค.
์ธ ##์ด ( ่จ ่ช ) ์ ๋ํ ์ ##์ ##๋ ์ฌ๋ฌ ##๊ฐ์ง ์ ##๋๊ฐ ์์๋ค .
[UNK] ( [UNK] [UNK] ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] .
2. SOV order ๊ฐ ์ค์ํ ์ ์ด์์๊น?
3. feature space
4. ๋ ผ๋ฌธ์ ๋ถ์ ๋ด์ฉ
๋ ผ๋ฌธ์ ๋ํ ๊ธฐํ ์ ๋ณด
Venue
Authors
Reference
[1] this paper: (arXiv) https://arxiv.org/abs/1906.01502 / (acl) https://www.aclweb.org/anthology/P19-1493.pdf [2] slide: http://www.dhgarrette.com/papers/pires_multilingual_bert_acl2019_slides.pdf (shared by. @soeque1) [3] youtube: https://www.youtube.com/watch?v=ZGZy_GrFkAY (shared by. @soeque1) [4] Selective Sharing for Multilingual Dependency Parsing [5] BERTScore