issues
search
chaos-moon
/
paper_daily
One paper a day, keep laziness away.
MIT License
7
stars
3
forks
source link
ImageBind
#19
Open
zc12345
opened
1 year ago
zc12345
commented
1 year ago
ImageBind
title: ImageBind: One Embedding Space To Bind Them All
institution:
FAIR, Meta AI
author: Rohit Girdhar*, Alaaeldin El-Nouby*, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra*
CVPR 2023 (
Highlighted paper
)
Paper
Blog
Demo
Supplementary Video
BibTex
method
insight
只需要把
其他模态的数据embedding和图像模态下的对齐
,就能实现跨模态智能涌现。比如训练(image, text)和(image, audio)的pair,就能实现(text, audio)的对齐,这也是为什么叫ImageBind:把所有模态的数据都bind到image模态下
可以用Vision-Language model如CLIP去初始化ImageBind之类的多模态模型
实现
和CLIP一样的对比学习,只是从text-image扩展到X-image
image-text模态直接用的open clip模型初始化
多模态数据处理
audio: 转成2D mel-spectrograms
depth/thermal: 视为单通道图像
video: 视为2帧的RGBT图像
IMU: 是和第一人称video成pair的
训练其他模态和image embedding对齐的时候,image/text encoder冻结
experiment result
Image Encoder的质量对于多模态zero/few-shot任务影响很大
不同模态下的模型设计并不遵循同一原则。比如强aug对depth模态涨点,但是会导致audio掉点
训练时间越长越好(看起来一直训下去还是有涨点空间?)
在zero/few-shot下能match甚至超过SOTA
应用
多模态数据在embedding空间下的算术运算
比如海浪声+鸟合成海边的鸟
跨模态检索
比如audio检索图片,text检索depth图
多模态图像AIGC
比如audio to image
思考
总体而言其实思路感觉也挺trivial,挺多人能想到。可能唯一的区别在于他做出来了。唯一的insight其实是把大家觉得应该的事情确认了一下,确认多模态任务可以从 $N\times N$ 降为 $1\times N$ 的组合
但是另一方面paper自己也说没有针对单独的任务重训,有些任务只能match SOTA或者要差。某种程度上的tradeoff吧
借鉴了机器翻译中的思路:只要train的时候对齐到同一个embedding space,可以在没有对应语料的情况下实现跨语言翻译(比如只有中-英和英-法,能实现中-法互译)。NLP源远流长
CLIP还是厉害啊……
ImageBind
Paper
Blog
Demo
Supplementary Video
BibTex
method
insight
实现
experiment result
应用
思考