Open sghong977 opened 5 months ago
it is a general-purpose model from multi-modal knowledge which entails more flexibility, composed of:
Q. Why the adapter part is apart from the main ViT model?
๊ฑ ์ด๊ฑฐ๋ฉด ์ค๋ช ์ด ๋จ
Q. why training-free?
Segmentation์ ์๋ก ๋ค์ด์ ์๊ฐํด๋ณด์.
Uni-Perceiver pretrain ๋ฐฉ์
Ablation study๋ก ๋์ด๊ฐ์
์๋์ ๊ธฐ์กด์ ๋ฐํ์ง ํน์ฑ์ ๋ฐ๋ผ, ViT-adapter๋ ์ด๋ค์ง ํธ๋ฆฌ์๋ณํ์ ํตํด ๋ถ์ -> vit-adapter๋ ๋ high frequency๋ฅผ ๋ฐฐ์ ์ผ๋ CNN์ฒ๋ผ high-freq ์ ๋ณด๋ฅผ ์ป์ ์ ์๋ค. ๋ญ ๊ทธ๋ฐ ์ฃผ์ฅ.
์์ ์ฃผ์ ์ฃผ์ ์ ์๋ ์ ๋ฐ ์๋ฌธ ๋๋ฌธ์ ๋ adapter ์ญํ ์ ์ฆ๋ช ํ๋ ค๊ณ ํ๋ ์๋ฃ์ธ๋ฏ...
๊ฐ component ๋น ์ง๊ฑฐ์ ๋ํ ablation์ ์๊ฐ์ ธ์๋ค. ํ๋ผ๋ฏธํฐ ๋ง์์ก์ผ๋ ๋น์ฐํ ์ข์์ง๊ฒ ์ง ๋ญ...
์ด๊ฑด adapter์ vit์ ํ๋ผ๋ฏธํฐ์ ๋น๊ต์ด๋ค.
์๋ฌดํผ ๋ segmentation์ ์ธ๊ฑด๋ฐ BEiT์ Mask2Former๋ฅผ ์ฌ์ฉํ๋ค๊ธธ๋ ์ด๊ฑฐ ๋ญ์ง๋ ๋ด์ผํ๋ค.
์ด ๋ ผ๋ฌธ์ ์์ธํ ์ฝ์ผ๋ฉด ์ฌ๋ฐ์๊ฒ๊ฐ์๋ฐ ์๊ฐ์ด ์์ผ๋.. ์ผ๋จ ํ์๋ค. ๋์ค์..
Beit v2: Masked image modeling with vector-quantized visual tokenizers. arXiv preprint arXiv:2208.06366, 2022
์์ฒญ ๋์ถฉ ๋ดค๋๋ฐ, ๊ทธ๋ฌ๋ฉด ๊ถ๊ธํ๊ฑฐ
์ค ์ด๊ฑฐ๋ฉด ์ดํด๊ฐ ๋๋ค.
์์ฆ segmentation์ ์ฅ๋ ์๋ค. ๋๋ฌด ํฌ๊ณ ๋ณต์กํ ๋ชจ๋ธ์ ํผํ๊ธฐ ์ํด์ SOTA๋ฅผ ์ฌ์ฉํ๋ ๋์ , ์ผ๋ถ๋ฌ text model ์งฌ๋ฝ๋์ง ์์์ผ๋ฉด์ ๋๋ฆ SOTA ๋ฐ์ด์ ์๋ ๋ชจ๋ธ๋ก ๊ฐ์ ธ์จ๊ฑด๋ฐ ํ๋์ ์์ ๊ธฐ์ ์ ๋ง๋ค๊ธฐ ์ํด์ ์์ฒญ๋ ๊ฒ๋ค์ด ์ง์ฝ๋์ด์์์ ์ ์ ์์๋ค.
๋จผ์ , ์ธ์ฝ๋๋จ์ ๋ณดํต generalized ์๋ general-purpose๋ฅผ ์ถ๊ตฌํ๊ธฐ ๋๋ฌธ์ ์ต์ ๊ธฐ์ ์ด ์ง์ฝ๋ ๊ฒ์ ์ฐ๊ณ ์ํ๋ค. ์ด ๋ ผ๋ฌธ์ ViT๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ์ผ๋ค. Vision์ ์ํด task-specificํ๊ฒ ๋ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ๋ง๋ ๋ค๋ฉด ์ด๋ ๋๊ตฐ๊ฐ๊ฐ ์์ฒญ ํฐ ๊ท๋ชจ์ ํ์ตํด์ ๋ฐฑ๋ณธ ๊ณต๊ฐํด์ค๊ฑธ ํ์ฉํ๊ธฐ ์ด๋ ค์ธ ํ ๋๊น. ์ค์ ๋ก, ๊ทธ๋ฅ ViT๋ค์ detection, segmentation๊ฐ์ local prior๊ฐ ์ค์ํ vision task์์ ์๋๋ ์ ์๋๋๋ฐ, ๋จ์ํ adapter๋ฅผ ๋ถ์์ผ๋ก์จ CNNs์ฒ๋ผ high frequency ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์ ์ด๋ค ์ต๊ทผ ViT backbone์ ๊ฐ์ ธ์๋๋ ํ๋ฉด, BEiTv2์ Uni-Perciever๊ฐ์๊ฑธ ์๋ก ๋ค ์ ์์๋ค. BEiT๋ Masked Autoencoder์ MIM ํ์ต ๋ฐฉ์์ ์ข๋ ์์ด๋์ด ๋ถ์ฌ ๊ณ ๋ํํ ์์ด๋์ด์ธ๋ฐ, backbone์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ํ ๋ ผ๋ฌธ์ธ๋ฏํ๋ค. ์ด ๋ ผ๋ฌธ ์์ฒด๋ multi-modal์ด ์๋๋ค. Uni-Perceiver๋ ViT ํ์ตํ๋๋ฐ์ multimodal๋ค์ด ์ ๋ถ ํ๋์ representation space์ ์๋๋กํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ๋ ผ๋ฌธ์ด๋ค. ์๋ฌดํผ DeiT, AugReg, BEiT, Uni-Perceiver, BEiTv2 ๋ฑ ๋ค์ํ backbone์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋ ๊ฒ ๊ฐ๋ค.
Adapter๋ ํ๋ผ๋ฏธํฐ์๊ฐ ๋น๊ต์ ๋ง์ง ์์์ ๊ทธ๋ฅ downstream task finetuning ํ ๋ ์๋ก ๋ถ์ฌ์ ํ์ตํ๋ ์ฉ๋์ด๋ค. NLP์์ ์๋ ๋ง์ด ์ด๋ค๋๋ฐ ๋น์ ์ ๊ฐ์ ธ์๋ค. ์ด๋ํฐ ๊ตฌ์กฐ๋ ๊ฐ๋จํ๋ ๊ฑ ๋์ด๊ฐ๊ฒ ๋ค...
๋์ฝ๋๋ task specificํ๋ค. ์ฌ๋ด์ด์ง๋ง SAM finetuning ํ ๋๋ encoder๋ ๊ทธ๋๋ก ๋๊ณ decoder๋ง ํ์ตํ๊ธธ ๊ถ์ฅํ๋ค๊ณ ํ๋ค. ๊ทธ๋์ ๊ธฐ์กด์ segmentation model์์ ๋ง์ด ์ฐ๋ ๊ฒ๋ค์ ํ์ฉํ๋ค. UperNet์ ๊ฒฝ์ฐ ์ฝ๊ฐ ์ค๋๋ ๋ ผ๋ฌธ์ด์ง๋ง SwinTransformer๊ฐ ๋์ค๋ฉด์ swin+upernet์ด ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋์์ด์ ์ฌ์ฉํ ๊ฒ ๊ฐ๊ณ , ์ต๊ทผ์ ๋์จ Mask2Former๋ ๋ถ์ฌ๋ดค๋ค. masked attention ์์ด๋์ด๊ฐ ์ ๊ธฐํ๋ค.
์๋ฌดํผ ๋ญ๊ฐ.. ๊ธฐ์กด์ ์๋ ๊ฒ๋ค์ ์ ํ์ฉํ๋ฐ๋ค๊ฐ ๋ ผ๋ฆฌ๋ฅผ ์ ๋ง๋ ๋ ผ๋ฌธ์ผ๋ก ๋ณด์ธ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ Uni-Perceiver v2 ๋ ผ๋ฌธ์ด ๋์จ ๊ฒ ๊ฐ๋ค. CVPR23. "Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks"
์๋ ผ๋ฌธ์์๋ vision task๋ค ๋ฐ๋ก ์ ๊ฑด๋๋ฆฌ๊ณ image-txt-video ์ด๋ป๊ฒ ์ ํ์ตํ๋๋์ ์ด์ ์ด ๋ ๋๋... ๊ทธ๋์ task๋ค๋ retrieval๊ฐ์๊ฑด๊ฐ ๊ทธ๋ฐ๋ฐ ์ฌ๊ธด ์์ฒญ ๋ค์ํด์ก๋ค.
ํ์ฌ SOTA๋ generalized model์ด๋ค. ์์ ๋ชจ๋ธ๊ณผ ๋ค๋ฅด๊ฒ ์ค๋์ค๊น์ง ๋ค์ด๊ฐ๋ค. ์ง๊ธ ๋ณด๋๊น ํ์คํ ์์ ์ด๋ฐ ํ๋ฆ ๋ชจ๋ฅด๋ฉด ์ด๋ฐ ์ต์ ๋ ผ๋ฌธ ๋ชป์ฝ์๊ฒ๊ฐ๋ค.... ์ด ๋ ผ๋ฌธ์ ICLR 2024 ๋ฆฌ์ ๋นํ ํ์ ์ด ์๋ค.
์ด์ฏค๋๋ฉด ๋ฆฌ์ ์ฌ์ ๊ฐ ๊ถ๊ธํ๋ค...... ๋ฒ์จ ์ธ์ฉ๋ ๋ง์ด ๋์๋๋ฐ 1) the model architecture is the same as prior work such as VLMO which does not bring new findings or insights; 2) the paper highlights the method can generalize to unlimited modalities but only evaluates on three modalities. The rebuttal did not address these concerns well. Therefore, the AC recommends rejection.
์ ๊ฑ ๊ฐ๋จํ๊ฒ... ์ง๊ธ ViT-Adapter finetuning์ค์ด๋ผ ๊ฐ๋ณ๊ฒ ๋ณธ๊ฑด๋ฐ ์ด๊ฒ ๋ญ. ์ค์ค์ด ๋ธ๋ ค๋์๋ค
InternViT๋ผ๋๊ฒ ์๋ค.
์ด๊ฑธ ๋ค๊ณ ์จ ์ด์ ๋ ViT-Adapter๋ํ ์ฌ๊ธฐ์ ์ง์๋๊ธฐ ๋๋ฌธ. ๋ฌผ๋ก ์ง๊ธ ๋๋ ์๋๋ ์ค์ํด์ ์ฌ๊ธฐ๊น์ง ๊ฐ์ง ์์ ๊ฒ ๊ฐ๋ค....
๊ทผ๋ฐ ๋ ผ๋ฌธ์์ ๊ณ์ pretraining free adapter๋ฅผ finetuning์ ํ์ตํ๋ค, ViT backbone์ architecture ์์ด ์์ ๊ฐ๋ฅํ๋ค <- ์ด๋ ๊ฒ๋ง ๋ง์ ์ด๊ฑฐ ๋ด์ ViT backbone์ ํ์ต ์ํด๋ ๋๋ค, ๊ณ ์ ํด๋ ๋๋ค ์ด๋ฐ ์๋ฆฌ๋ ์๋ ๊ฒ ๊ฐ๋ค. ์ด๋ถ๋ถ์ด ๋ฏธ์ฌ์ฉ์ด์ ๋ ผ๋ฌธ์ด๋ ์ฝ๋ ์ฒดํฌํด๋ด๋... ์๋ฅผ๋ค๋ฉด ViT-adapter์ beit backbone ์ฝ๋์์ requires_grad=False์ฒ๋ฆฌ๋๊ฑฐ ์ด๊ฑฐ ํ๋๋ค. ์๋ Default๊ฐ true์ผํ ๋ฐ.. chatGPTํํ ๋ฌผ์ด๋ณด๋ฉด backbone์ training free๋ผ๋ ์์ผ๋ก ๋๋ตํด์ ์๋ฌธ์ค๋ฝ๊ธด ํ๋ค
Vision Transformer Adapter for Dense Predictions
Info.
Summary
Questions before reading the paper
is the "adapter" concept the same as NLP's? https://intelligentcm.tistory.com/340
github์ flash attention์ ์ ์ฉํ๋ค๋ ๋ง์ด ์๋๋ฐ, ์์ฆ ์ด ํค์๋ ์์ฃผ ๋ณด์ธ๋ค. ์ด๊ฑด ๋ญ์ง?