problem : chatGPT는 언어로만 주고 받는다. 이미지 input / output을 받으면 좋겠다. 그렇다고 chatGPT를 vision model도 받게 하자니 모델 학습하는데 너무 오래걸린다.
idea : 그냥 external Vision Foundation Model들을 call 할 수 있는 시스템을 만들자 -> chain of thought로 어떤 vision model을 call 할건지 thought - action을 하도록 함. -> 채팅 인터페이스에 맞게 애매한 쿼리 재질문하고 만든 이미지 파일을 잘 인용하거나 할 수 있게 시스템을 만듦
architecture : 비전 모델들 hf 등에서 줍줍 + instructGPT 기반의 chatGPT + LangChain을 통해서 시스템 적용
objective : LM ce loss
baseline : x
data : 새로 학습하지 않은 듯 하다
evaluation : qualatatively
result : 작동
contribution : 최초의? vision chatGPT
limitation / things I cannot understand : flamingo 같은 모델인줄 알았으나 아니었음.. 뭔가 모델이라기 보단 사용설명서 같은 느낌 .. fancy하진 않으나 앞으론 이런 접근법이 대세이려낭..
Details
hf에서 visual foundation models + MaskFormer
Since Visual ChatGPT is a text language model, Visual ChatGPT must use tools to observe images rather than imagination. The thoughts and observations are only visible for Visual ChatGPT, Visual ChatGPT should remember to repeat important information in the final response for Human. Thought: Do I need to use a tool?”를 prefix로 두고 쿼리를 날렸다고 함.
paper, github, demo
TL;DR
Details
hf에서 visual foundation models + MaskFormer
Since Visual ChatGPT is a text language model, Visual ChatGPT must use tools to observe images rather than imagination. The thoughts and observations are only visible for Visual ChatGPT, Visual ChatGPT should remember to repeat important information in the final response for Human. Thought: Do I need to use a tool?”
를 prefix로 두고 쿼리를 날렸다고 함.