issues
search
paperswithlove
/
papers-we-read
3
stars
0
forks
source link
LLAVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
#5
Open
blacklleye
opened
6 months ago
blacklleye
commented
6 months ago
최근들어 정말 다양한 GPT4 분석 논문들이 나오고 있다.
GPT4V의 분석도 나타났다!!!
GPT4V 입력 구조를 예상하고 부족한 점을 보완
핵심은 no overlap & no padding
[ ]
근거
아래 이미지들을 보면 slice가 없는 phase 1에서는 정답, 원이 잘리는 phase 2에서는 대부분 12, phase 3에서는 16개까지 나온다. slice 당 원이 4개씩 들어갔기 때문에... GPT4V는 512로 나눠지지 않으면 중첩하기 때문에 에러가 발생한다.
[ ]
제안하는 구조