Closed long8v closed 1 month ago
https://arxiv.org/pdf/2310.02110.pdf meta ๋ ผ๋ฌธ ์บก์ ๋ชจ๋ธ - Sentence Similarity(all-MiniLM-L6)์ผ๋ก ํํฐ๋งํ๋ ์ ๊ทผ
CLIP์ gt(=reference) image, caption ๋ฃ์์ ๋์ score์ ๋ถํฌ์ evaluating image, caption ๋ฃ์์ ๋์ score ๋ถํฌ๊ฐ์ pointwise mutual infromation divergence๋ก score๋ฅผ ๋งค๊ฒผ๋ค๋ ๋ด์ฉ~ ์์งํ ์ดํด๋ ๋ชปํจ
CLIP์์ QA ํํ๋ก ์ฃผ๋ฉด ๊ฑฐ์ ๋ชปํ๊ณ ์ด๊ฑธ rewrite ์์ผ์ caption ํํ๋ก ๋ง๋ค๊ณ ๊ฐ์ฅ ์ ์ฌ๋ ๋์๊ฑธ๋ก ํ๋๊น ์ ํ๋ ธ๋ค๋ ๋ ผ๋ฌธ~
๋ณ๊ฑฐ ์์์..! ๊ฑ mask๋ ๊ณณ์๋ค๊ฐ possible word ๋ฃ๊ณ ๊ฐ์ฅ ๋์๊ฑธ๋ก ์์ธกํ๋ ํ์
https://arxiv.org/pdf/2312.14232.pdf
laion-2b์์ clip score๊ฐ ๊ฐ์ฅ ๋์ text-image pair๋ฅผ ์ฐ์ด๋ดค๋๋ฐ ๋ค ๊ธ์๊ฐ ์๋ ๊ทธ๋ฆผ์ด์๋ค๊ณ ํ๋ค์ฉ ๊ธ์๊ฐ ๋ค์ด๊ฐ๋ ์ด๋ฏธ์ง - ํ ์คํธ ํ์ด๊ฐ ๊ทธ๋ ์ง ์์ ๊ฒ๋ค๋ณด๋ค clip score๊ฐ ๋์ ๊ฒฝํฅ์ฑ์ด ์๊ณ , ๊ทธ๋์ clip score๋ก ํํฐ๋ง ํ ๋ ์ด๋ฐ bias๋ฅผ ์ ์ํด์ผํ๋ค~๋ ๋ด์ฉ์ ๋๋น
https://github.com/kakaobrain/coyo-dataset
์๋ค๋ ์คํ๋ ค ๋ ผ๋ฌธ์ ์๋์๊ตฌ๋ญ..
"\n \n Load image into Gallery viewer, valentine's day roses\n \n" โ "Load image into Gallery viewer, valentine's day roses"
โthumbnail forโ, โimage forโ, โpicture ofโ
multi-label ๋ถ๋ฅ ๋ฐ์ดํฐ์ ๋ ๋๋๋ฐ ImageNet-21k๋ก ํ์ตํ ๋ชจ๋ธ๋ก ๋ง๋ machine labeled์ด๊ธด ํ๋ imagenet ์ฑ๋ฅ์ด JFT-300M์ด๋ ๋น์ทํ๊ฒ ๋์จ๋ค
โ early fusion์ด๋ผ๊ณ ์๊ธฐํ๊ณ ์ด๋ฅผ ํตํด fine-grained ํด์ง๋ค๋ฅผ ์๊ธฐ
์ด๋ ๋ฐํ๋๋ ๋ฅ๋ ฅ์ ๊ฐ ํ ํฐ์ ๋ํด similiarity๊ฐ ์๋์ ๊ฐ์ด ์ดํดํ๊ธฐ ์ฌ์ด ๋ฐฉ์์ผ๋ก ๋๋ค๋ ์ ์ด๋ค. โ ์ด๊ฒ ๋ญ๊ฐ ์ข์์ง ์ ๋ชจ๋ฅด๊ฒ ๋ ๋ถ๋ถ.. โ explainability ?!
https://arxiv.org/abs/2305.20088
์ง์ง ๋์ถฉ ์ฝ์ด๋ดค๋๋ฐ CC3M ๊ฐ์ caption๋ง ์ฃผ๊ณ ๋ค์ ์ฐ๋ผ๊ณ ํ๋๋ฏ? ๋ ํ๋ถํ ํํ๊ณผ ๋ค์์ฑ์ด ๋์ด๋๋ค๊ณ ?
์์ ๊ฐ์ ๋ผ์ด๊ฑด ์๋๊ณ ์ฌ๋ฌ๊ฐ ๋ง๋ค๊ณ ๊ทธ๋๋ง๋ค sampling ํด์ ์ฌ์ฉํ๋ค๊ณ ํจ
์ฑ๋ฅ์ด ๊ฝค ๋์ด๋๋ค..
https://arxiv.org/pdf/2102.05918.pdf ๋ณ๋ค๋ฅธ Trick ์์ด CLIP loss๋ก training corpus ๋ง์ด ๋๋ฆฌ๋ฉด ์ ๋๋ค
fine-grained clip ๋ฅ
FILIP๊ณผ ๋ค๋ฅธ ์ ์ positive image-text pair ๋ด๋ถ์์ threshold๋ก similarity๋ฅผ ์๋ฅธ ๋ค์ ๊ทธ๊ฑธ๋ก weight๋ฅผ ๊ตฌํ๊ณ
์๋ฅผ vision feature๋ ๊ฐ์คํฉ์ ํด์ langague-grouped vision embedding์ ๊ตฌํ ๋ค์ ์ด์ ๋ํด Contrastive loss๋ฅผ ๊ฑธ์ด์ฃผ๋!
๋ง์ด ๋ค๋ฆ! COCO retrieval์ด ๋ง์ด ์ค๋ฆ
OV-OD (Owl-ViT์ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํด์ ์ผ)ํ์ ๋ ์ฌ๋๋ค๊ณ ํจ
๋ค๋ง ๋ฐ์ดํฐ๋ฅผ ์์ฒญ ๋ง์ด ์ ใ ใ
์ค๋ ๋๊ฐ ๋๋ฌด ๊ธธ์ด์ง๋ค.. CLIP ์ฐ๊ตฌ๋ ์ฐธ ํซํ๊ตฌ๋..
CLIP์ด ๋ถ์ ํํ์ ๋ชปํด์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํด์ค์ ๋ฃ์ด์คฌ๊ณ Finegrained contrastive๋ ๋ฃ์ด์คฌ๋ค๊ณ ํจ
CLIP์ contrastive loss์ ์ฑ๊ฒฉ ์ bag-of-words ์์ผ๋ก ํ์ต๋์๋ค.
a.k.a ARO ์ ์ https://github.com/mertyg/vision-language-models-are-bows hard negative๋ก ํ์ต๋ NegCLIP์ relation ๋ฑ ์์ ๊ฒ๋ค์ ํจ์ฌ ์ํ๋ค๊ณ ํจ.
CLIP spurious clue
CatLIP. imagenet์ ๋ค์ด์๋ class์ training data์ ๋ค์ด์๋ class์ ๋น๋์๋ฅผ ๋ถ์ํ ๊ฒ ๊ฐ๊ธธ๋ ๋ด
๋๊ฐ ์์ฝํด๋จ๋ค ใ ใ https://devocean.sk.com/blog/techBoardDetail.do?ID=165861&boardType=techBlog ๊ฑ ํ ์คํธ ์ธ์ฝ๋ ์๋ CLIP์ผ๋ก ๋ถ๋ฅ๊ธฐ ๋ง๋ค๊ธฐ ๋ ผ๋ฌธ์
CLIP + meta learning ์ค๋ฌ์ด
Object๊ฐ ์ฌ๋ฌ ๊ฐ ์๋ image์ ๋ํด A lemon is [MASK]๋ก ํ๋ฉด yellow๊ฐ ์๋๋ผ ์์ ์๋ Eggplant์ ์์ ๋ฝ๋๋ค
์ด ์ด์ ๋ ๊ทธ๋ด๋ฏํ๋ฐ ใ ใ lemon์๋ ์ด๋ฏธ ๋ ธ๋์์ด ์์ผ๋ฏ๋ก ๊ฐ์ฅ ๊ฐ๊น๊ฒ ๋ง๋ค๊ธฐ ์ํด์๋ ๊ฐ์ง์ ์์ธ ๋ณด๋ผ์์ ๋ฃ๋๊ฒ ๊ฐ์ฅ ์ข์ ๊ฒ !
์ด๋ฐ ๋ฐ์ดํฐ์ ์ด ์๋น Natural-Color Dataset (NCD)
๊ฑฐ์ scheming๋ง ํ๋ ๋ ผ๋ฌธ ๋ชจ์๋๋ ๊ณณ. notion์ ์ ๋ฆฌ์ค์ด์์ผ๋ link๋ฅผ ๊ฑธ๊ธฐ๊ฐ ์ด๋ ค์์ ์ฎ๊น.