yaoyz96 commented 1 year ago

GSS (CVPR 2023)

Generative Semantic Segmentation, CVPR 2023. [paper][code]

P.S. 最核心的代码官方没有放出

Institution

Fudan University
University of Surrey

Motivation

现有的语义分割方法通常为判别式的，即 discriminative per-pixel classification learning process。这些工作基于条件概率（i.e. 图像像素的分类概率）的 log-likelihood 对图像中每个像素点做出预测。

而生成式模型通常包含两阶段优化过程：

学习数据表征（data representation）
建立概率模型

现有的生成式预训练大模型通过第一阶段的训练，具有丰富的数据表征，应该能够迁移到相关任务上来，比如语义分割。

Contribution

2023-05-05_131314

提出生成式语义分割方法，将语义分割问题看作基于图像的掩码生成问题（image-conditioned mask generation problem），从本质上区别于传统语义分割方法。具体地，用 latent prior learning process 替代传统的 per-pixel discriminative learning process。通过一个辅助的潜在变量分布，直接生成整幅图像的 segmentation mask。
由于数据格式不统一，通用生成式框架（e.g. Transformer）无法直接应用于语义分割任务。本文提出概念“maskige”，以 RGB 图像格式表示 segmentation mask，能够使用现有的生成模型的预训练潜在后验分布（e.g. VQVAE）

生成式语义分割方法的优势：

于任务无关（task-agnostic）
能够利用现成的大型生成模型（DALL·E）

Preliminaries

判别式 v.s. 生成式

判别式语义分割典型工作：

基于 CNNs 的 FCN、PSPNet、DeepLab
基于 Transformer 的 SETR、Segformer

Discriminative Learning

传统判别式语义分割问题定义:

$$ \underset{\pi}{max} \text{log} p_{\pi}(c|x) $$

其中, $x \in \mathbb{R}^{H \times W \times 3}$ 为输入图像, $c \in {0,1}^{H \times W \times K}$ 为包含 $K$ 个类别的 segmentation mask, $p_{\pi}$ 为分类器，参数为 $\pi$。

判别式语义分割的目标即学习模型参数 $\pi$，使其对输入图像的每个像素具有较好的 classification boundary，最大化 log-likelihood $\text{log} p_{\pi}(c|x)$。

GSS 模型

[todo] 理论分析较多

Formulation

生成式语义分割模型（GSS）引入一个 $L$ 维度的潜在分布 latent distribution $q_{\phi}(z|c)$，其中 $z \in \mathbb{Z}^L$。

Architecture

GSS 模型包含三部分：

image encoder
maskige encoder
maskige decoder

Method

two-stage 优化策略：

基于语义分割标签，学习 latent variables 的 posterior distribution
最小化 latent variables 的 posterior 与 prior distribution 间的距离

zc12345 commented 1 year ago

论文名字起得好嚣张，Generative Semantic Segmentation，但是感觉肯定不是第一个做类似思路的工作。生成式模型从stable diffusion到mask image modeling(MAE) / autoregressive(Parti)方式的图像建模，把生成式思路做分割的应该很多，比如随手搜到的ICLR2022的LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS。感觉最有意思的其实是他把语义分割看作图片RGB上色问题，然后用生成模型生成分割。直觉上生成式分割其实大有可为，近两年应该会有挺多任务在用生成式方法重新做一遍，就是太费卡……