Open zc12345 opened 1 year ago
感觉是个简单粗暴的模型,没有魔改痕迹,就是大数据+大模型。 有了SAM之后,对个体研究者来说,很多问题会不会已经不再是问题了?😅
感觉是个简单粗暴的模型,没有魔改痕迹,就是大数据+大模型。 有了SAM之后,对个体研究者来说,很多问题会不会已经不再是问题了?😅
我觉得其实最大的contribution是把click/bbox/mask/prompt统一到一个框架下,everything is prompt。实际上本身的模型可以并不大,如果用ViT-b的话只有几百M大小(当然效果相对也要差一些)
prompt必须基于Transformer?CNN网络有没有借鉴prompt的工作。
感觉是个简单粗暴的模型,没有魔改痕迹,就是大数据+大模型。 有了SAM之后,对个体研究者来说,很多问题会不会已经不再是问题了?😅
我觉得其实最大的contribution是把click/bbox/mask/prompt统一到一个框架下,everything is prompt。实际上本身的模型可以并不大,如果用ViT-b的话只有几百M大小(当然效果相对也要差一些)
prompt必须基于Transformer?CNN网络有没有借鉴prompt的工作。
感觉是个简单粗暴的模型,没有魔改痕迹,就是大数据+大模型。 有了SAM之后,对个体研究者来说,很多问题会不会已经不再是问题了?😅
我觉得其实最大的contribution是把click/bbox/mask/prompt统一到一个框架下,everything is prompt。实际上本身的模型可以并不大,如果用ViT-b的话只有几百M大小(当然效果相对也要差一些)
可能可以?这个事情的逻辑链是这样的: transformer结构在text和image都能work(ViT) -> text和image能在embedding feature层面对齐(CLIP) -> 空间位置信息可以用position embedding统一到transformer网络中去(这本身是ViT的缺点: 缺少空间信息,导致只能用position embedding硬编码) -> text/mask/bbox/click 都可以用prompt(其实这里更多是embedding,Meta就硬蹭prompt learning的热度)表示
按理说CNN可以,而且这本身就是把bbox区域显著性分割/click clue分割/text分割(这个好像也有做的,就是给一个cat的text,分割图片中的所有cat)缝合到一个框架的东西。非要说的话每个部分都有人做,但是放到一起的还没有,除了text分割之外CNN都能做并且可能做得更好,但是CNN没有CLIP这些良好的text-image对齐模型。 感觉还是应该认识并且使用ViT,并且想办法把CLIP这些预训练模型用起来,并且在已有预训练模型的基础上展开研究,判断还有哪些地方应该改进,可以做文章
小组会上又讲了SAM,一些问题待解决:
小组会上又讲了SAM,一些问题待解决:
- SAM说的能实现Zero-shot segmentation,是带语义的还是不带语义的?我认为应该是不带语义的Zero-shot,属于模型能力大了以后,直接对new image的things和stuff进行分割,但模型并不知道分割的对象是什么。
- dense encoder在训练阶段是不是必须输入mask?如果只输入points/box/text,就无法对分割结果进行监督?
SegmentAnything
Author
Meta AI Research, FAIR
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alex Berg, Wan-Yen Lo, Piotr Dollar, Ross Girshick
Paper
]Project
]Demo
]Dataset
]Blog
]BibTeX
]Contribution
模型 SAM
数据集 SA-1B
三步走:
展望
思考