21๋ ๋ deep mind์์ image / video ๋ฑ ๋ค์ํ modality๋ฅผ ํจ์จ์ ์ผ๋ก ํํํ ์ ์๊ฒ.
๋น๋์นญ์ ์ธ attention ๋ชจ๋์ ์ฌ์ฉํด์ a small set of latent units์ผ๋ก ์ ์ฐจ CAํ ์ ์๋๋ก(detr์ด๋ ๋น์ทํ๋ฐ ๋ํ ์ผ์ด ์ข ๋ค๋ฅผ๋ฏ)
image classification / audio / point cloud ๋ฑ์์ comparable ์ฑ๋ฅ
(c.f. Set Transformer๊ฐ most related work๋ผ๊ณ ํ๋ฉด์ ๊ณ์ ์ธ๊ธ)
Chinchiller
22๋ 3์์ ๋ฅ๋ง์ธ๋์์ ๋์จ ๋ชจ๋ธ. https://arxiv.org/pdf/2203.15556.pdf
์ ์์ด Gopher์๋๋ฐ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ง ์ปค์ง๊ณ ํ์ต ๋ฐ์ดํฐ๋ ๊ทธ๋๋ก ์จ์ ๋ชจ๋ธ์ด underfit ๋๋ค๊ณ ํ๋จ.
By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. ... ๋ฏธ์น ๋๋ค!
model size๋ฅผ ๋๋ฐฐ ๋๋ฆฌ๋ฉด num of tokens๋ ๋๋ฐฐ๋ก ๋๋ ค์ผ ํ๋ค๋ ๋ฐ๊ฒฌ
Gopher(280B)๋ณด๋ค ํ๋ผ๋ฏธํฐ ์๋ 4๋ฐฐ ์์ง๋ง training data๋ 4๋ฐฐ ๋๋ ค์ Gopher์ ์ฑ๋ฅ์ ์ด๊ธด ๋ชจ๋ธ
paper
TL;DR
Details
introduction์ ์จ์๋๊ฑฐ๋ ๋น์ทํ ๋ด์ฉ. CLIP๋ฅ ์ฐ๊ตฌ๋ฅผ ํ์๋๋ฐ ํ ์ ์๋ task๊ฐ ํ์ ์ ์ด์๋ค. -> flamingo๋ก ๋์ด๊ฐ ๊ฒฐ๊ตญ ์ด๋ค ์ธํฐํ์ด์ค๊ฐ ๋ค์ํ ํ์คํฌ๋ฅผ ํ ์ ์์ ๊ฒ์ธ๊ฐ? application์ ์ ํฉํ ๊ฒ์ธ๊ฐ?๋ฅผ ๋ฌธ์ ์์์ผ๋ก ์ผ์ ๊ฒ ๊ฐ๋น ๋ฌธ์ ์์์ ์ํคํ ์ณ๊ฐ ์๋๋ผ ํ ์ ์๋ task ๋ค๋ก ์ก์ ๋ฏ~ ํ ์ ์ ์ํคํ ์ณ๊ฐ ์ค์ํ๊ฒ ์๋๋ผ ๋ฐ์ดํฐ/ํ์ต/ํ์คํฌ ๋ฑ์ด ์ค์ํ ๊ฒ ๊ฐ๋ค.. ๋๋ ์ด์ ๋ฌด์ผ ์์์ผ ํ๋
Preliminaries
Normalizer Free ResNet https://arxiv.org/pdf/2102.06171.pdf ResNet์ batch norm์ด ๋ชจ๋ธ์ด bs์ ๋ฏผ๊ฐํด์ง๊ฑฐ๋, ํ ๋ฐฐ์น ๋ด ์ด๋ฏธ์ง์ interaction์ ์ํฅ์ ๋ฐ๊ฒ ํ๋ ํจ๊ณผ๊ฐ ์์ด์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ชจ๋ธ
Perceiver https://arxiv.org/pdf/2103.03206.pdf
21๋ ๋ deep mind์์ image / video ๋ฑ ๋ค์ํ modality๋ฅผ ํจ์จ์ ์ผ๋ก ํํํ ์ ์๊ฒ. ๋น๋์นญ์ ์ธ attention ๋ชจ๋์ ์ฌ์ฉํด์ a small set of latent units์ผ๋ก ์ ์ฐจ CAํ ์ ์๋๋ก(detr์ด๋ ๋น์ทํ๋ฐ ๋ํ ์ผ์ด ์ข ๋ค๋ฅผ๋ฏ) image classification / audio / point cloud ๋ฑ์์ comparable ์ฑ๋ฅ (c.f. Set Transformer๊ฐ most related work๋ผ๊ณ ํ๋ฉด์ ๊ณ์ ์ธ๊ธ)
By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled.
... ๋ฏธ์น ๋๋ค! model size๋ฅผ ๋๋ฐฐ ๋๋ฆฌ๋ฉด num of tokens๋ ๋๋ฐฐ๋ก ๋๋ ค์ผ ํ๋ค๋ ๋ฐ๊ฒฌ Gopher(280B)๋ณด๋ค ํ๋ผ๋ฏธํฐ ์๋ 4๋ฐฐ ์์ง๋ง training data๋ 4๋ฐฐ ๋๋ ค์ Gopher์ ์ฑ๋ฅ์ ์ด๊ธด ๋ชจ๋ธํ์ต ์ค๊ฐ์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ํค์ -> ์? https://arxiv.org/pdf/2112.11446.pdf 120์ชฝ์ง๋ฆฌ ์ฝ์ผ๋ฉด ์ ์ ์์๋ฏ..
Dataset
M3W 43M ์นํ์ด์ง์์ HTML์ ํตํด ์ด๋ฏธ์ง-ํ ์คํธ๋ฅผ ๋ฝ์. DOM ๊ตฌ์กฐ๋ฅผ ํตํด ์๋์ ์ธ ์์น๋ฅผ ๋ฝ์ ํ ์คํธ ๋ด์ token์ ๋ฃ์ด์ ์ด๋ฏธ์ง์ ์์น๋ฅผ ๋ฃ์๊ณ (end of chunk) ํ ํฐ์ ์ด๋ฏธ์ง ์ / ๋ฌธ์ ๋ง์ง๋ง์ ๋ฃ์์.
๊ฐ ๋ฌธ์์ ๋ํด์ subsequence L=256๊ฐ(๋๋ฌด ์์๋ฐ? ๊ฐ ์ด๋ฏธ์ง ์์์ ๋งํ๋๊ฑฐ๊ฒ ์ง?)์ ํ ํฐ์ ๋๋ค์ผ๋ก ๋ฝ์๊ณ ์ต๋ 5๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ฃ์์
ALIGN web์ alt text(tag)๋ผ๋๊ฒ ์๋๋ฐ ๊ทธ๊ฑฐ ์ฌ์ฉํด์ ๊ตฌ์ถํ ๋ฐ์ดํฐ https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
Architecture
Objective
๊ฐ ๋ฐ์ดํฐ์ ๋ํ gradient๋ฅผ accumulateํ๋๊ฒ ์์ฐจ์ (round-robin)์ผ๋ก ํ๋๊ฒ๋ณด๋ค ๋ ์ข์์ ๊ทธ๋ฆฌ๊ณ per-dataset weights์ธ $\lambda _m$์ ํ๋ํ๋๊ฒ ์ฑ๋ฅ์ ํฌ๋ฆฌํฐ์ปฌํ๋ค๊ณ ํ๋น
Results
Tanh gating
etc.
c.f. x-attn์์ x๊ฐ ๋ญ์ง ํ๊ณ ๊ฒ์ํ๋ค ๋ฐ๊ฒฌ ์ ์ฒด finetuning ์ํ๊ณ CA์ชฝ๋ง ํด๋ ์ฑ๋ฅ์ด ์ข๋ค๋ ๋ ผ๋ฌธ. domain์ MT Cross-Attention is All You Need: Adapting Pretrained Transformers for Machine Translation https://arxiv.org/pdf/2104.08771.pdf