Open yaoyz96 opened 1 year ago
论文名字起得好嚣张,Generative Semantic Segmentation,但是感觉肯定不是第一个做类似思路的工作。生成式模型从stable diffusion到mask image modeling(MAE) / autoregressive(Parti)方式的图像建模,把生成式思路做分割的应该很多,比如随手搜到的ICLR2022的LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS。 感觉最有意思的其实是他把语义分割看作图片RGB上色问题,然后用生成模型生成分割。直觉上生成式分割其实大有可为,近两年应该会有挺多任务在用生成式方法重新做一遍,就是太费卡……
论文名字起得好嚣张,Generative Semantic Segmentation,但是感觉肯定不是第一个做类似思路的工作。生成式模型从stable diffusion到mask image modeling(MAE) / autoregressive(Parti)方式的图像建模,把生成式思路做分割的应该很多,比如随手搜到的ICLR2022的LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS。 感觉最有意思的其实是他把语义分割看作图片RGB上色问题,然后用生成模型生成分割。直觉上生成式分割其实大有可为,近两年应该会有挺多任务在用生成式方法重新做一遍,就是太费卡……
对,他们应该不是第一个做的,maskige这个概念确实是他们第一个提出来的。看到了issue里也有显卡不够用的问题,生成式在schedule上还得继续往后推推😞
GSS (CVPR 2023)
Generative Semantic Segmentation, CVPR 2023. [paper][code]
P.S. 最核心的代码官方没有放出
Institution
Motivation
现有的语义分割方法通常为判别式的,即 discriminative per-pixel classification learning process。这些工作基于条件概率(i.e. 图像像素的分类概率)的 log-likelihood 对图像中每个像素点做出预测。
而生成式模型通常包含两阶段优化过程:
现有的生成式预训练大模型通过第一阶段的训练,具有丰富的数据表征,应该能够迁移到相关任务上来,比如语义分割。
Contribution
提出生成式语义分割方法,将语义分割问题看作基于图像的掩码生成问题(image-conditioned mask generation problem),从本质上区别于传统语义分割方法。具体地,用 latent prior learning process 替代传统的 per-pixel discriminative learning process。通过一个辅助的潜在变量分布,直接生成整幅图像的 segmentation mask。
由于数据格式不统一,通用生成式框架(e.g. Transformer)无法直接应用于语义分割任务。本文提出概念“maskige”,以 RGB 图像格式表示 segmentation mask,能够使用现有的生成模型的预训练潜在后验分布(e.g. VQVAE)
生成式语义分割方法的优势:
Preliminaries
判别式 v.s. 生成式
判别式语义分割典型工作:
Discriminative Learning
传统判别式语义分割问题定义:
$$ \underset{\pi}{max} \text{log} p_{\pi}(c|x) $$
其中, $x \in \mathbb{R}^{H \times W \times 3}$ 为输入图像, $c \in {0,1}^{H \times W \times K}$ 为包含 $K$ 个类别的 segmentation mask, $p_{\pi}$ 为分类器,参数为 $\pi$。
判别式语义分割的目标即学习模型参数 $\pi$,使其对输入图像的每个像素具有较好的 classification boundary,最大化 log-likelihood $\text{log} p_{\pi}(c|x)$。
GSS 模型
[todo] 理论分析较多
Formulation
生成式语义分割模型(GSS)引入一个 $L$ 维度的潜在分布 latent distribution $q_{\phi}(z|c)$,其中 $z \in \mathbb{Z}^L$。
Architecture
GSS 模型包含三部分:
Method
two-stage 优化策略: