chaos-moon / paper_daily

One paper a day, keep laziness away.
MIT License
7 stars 3 forks source link

[paper] Generative Semantic Segmentation #15

Open yaoyz96 opened 1 year ago

yaoyz96 commented 1 year ago

GSS (CVPR 2023)

Generative Semantic Segmentation, CVPR 2023. [paper][code]

P.S. 最核心的代码官方没有放出

Institution

Motivation

现有的语义分割方法通常为判别式的,即 discriminative per-pixel classification learning process。这些工作基于条件概率(i.e. 图像像素的分类概率)的 log-likelihood 对图像中每个像素点做出预测。

而生成式模型通常包含两阶段优化过程:

  1. 学习数据表征(data representation)
  2. 建立概率模型

现有的生成式预训练大模型通过第一阶段的训练,具有丰富的数据表征,应该能够迁移到相关任务上来,比如语义分割。

Contribution

2023-05-05_131314

  1. 提出生成式语义分割方法,将语义分割问题看作基于图像的掩码生成问题(image-conditioned mask generation problem),从本质上区别于传统语义分割方法。具体地,用 latent prior learning process 替代传统的 per-pixel discriminative learning process。通过一个辅助的潜在变量分布,直接生成整幅图像的 segmentation mask。

  2. 由于数据格式不统一,通用生成式框架(e.g. Transformer)无法直接应用于语义分割任务。本文提出概念“maskige”,以 RGB 图像格式表示 segmentation mask,能够使用现有的生成模型的预训练潜在后验分布(e.g. VQVAE)

生成式语义分割方法的优势:

Preliminaries

判别式 v.s. 生成式

判别式语义分割典型工作:

Discriminative Learning

传统判别式语义分割问题定义:

$$ \underset{\pi}{max} \text{log} p_{\pi}(c|x) $$

其中, $x \in \mathbb{R}^{H \times W \times 3}$ 为输入图像, $c \in {0,1}^{H \times W \times K}$ 为包含 $K$ 个类别的 segmentation mask, $p_{\pi}$ 为分类器,参数为 $\pi$。

判别式语义分割的目标即学习模型参数 $\pi$,使其对输入图像的每个像素具有较好的 classification boundary,最大化 log-likelihood $\text{log} p_{\pi}(c|x)$。

GSS 模型

[todo] 理论分析较多

Formulation

生成式语义分割模型(GSS)引入一个 $L$ 维度的潜在分布 latent distribution $q_{\phi}(z|c)$,其中 $z \in \mathbb{Z}^L$。

Architecture

GSS 模型包含三部分:

  1. image encoder
  2. maskige encoder
  3. maskige decoder

Method

two-stage 优化策略:

  1. 基于语义分割标签,学习 latent variables 的 posterior distribution
  2. 最小化 latent variables 的 posterior 与 prior distribution 间的距离
zc12345 commented 1 year ago

论文名字起得好嚣张,Generative Semantic Segmentation,但是感觉肯定不是第一个做类似思路的工作。生成式模型从stable diffusion到mask image modeling(MAE) / autoregressive(Parti)方式的图像建模,把生成式思路做分割的应该很多,比如随手搜到的ICLR2022的LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS。 感觉最有意思的其实是他把语义分割看作图片RGB上色问题,然后用生成模型生成分割。直觉上生成式分割其实大有可为,近两年应该会有挺多任务在用生成式方法重新做一遍,就是太费卡……

yaoyz96 commented 1 year ago

论文名字起得好嚣张,Generative Semantic Segmentation,但是感觉肯定不是第一个做类似思路的工作。生成式模型从stable diffusion到mask image modeling(MAE) / autoregressive(Parti)方式的图像建模,把生成式思路做分割的应该很多,比如随手搜到的ICLR2022的LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS。 感觉最有意思的其实是他把语义分割看作图片RGB上色问题,然后用生成模型生成分割。直觉上生成式分割其实大有可为,近两年应该会有挺多任务在用生成式方法重新做一遍,就是太费卡……

对,他们应该不是第一个做的,maskige这个概念确实是他们第一个提出来的。看到了issue里也有显卡不够用的问题,生成式在schedule上还得继续往后推推😞