AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
18 stars 0 forks source link

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N/A, arXiv'23 #1127

Open AkihikoWatanabe opened 12 months ago

AkihikoWatanabe commented 12 months ago

URL

AkihikoWatanabe commented 11 months ago

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。 image image