issues
search
chaos-moon
/
paper_daily
One paper a day, keep laziness away.
MIT License
6
stars
3
forks
source link
diffusion overview
#12
Open
zc12345
opened
1 year ago
zc12345
commented
1 year ago
diffusion overview
Noise2Image
DDPM: 线性马尔科夫链,学习加还原的过程噪声,需要几k step生成;可以在diffusion生成的时候加入text embedding
DDIM: 增加跳层连接,能够加速网络;训练时间相似,生成时间更短
LDM(latent diffusion model): 引入下采样网络减少计算量,在DDIM的基础上进一步加速;引入prompt查询
ControlNet: 将原网络detach之后copy一份,然后训一个zero conv(全零初始化的conv让网络学习diff)将condition(seg, depth等)作为embedding插入
PDFS: 参数化蒸馏、快速采样
Text2Image
CogView:
text -(GPT)-> embedding
image-(encoder)->embedding-(decoder)->image
拉近文本embedding和图片embedding
4B参数+512V100
GLIDE(CLIP guidance and classifier-free guidance): 真正通过diffusion model生成图片
Guided Diffusion(classifier): 用图像分类计算高斯分布均值
Guided Diffusion(CLIP): 用图像编码和CLIP的文本编码内积相似度计算高斯分布均值
Classifier-free guidance: 通过权重调节classifier-free guidance + classifier guidance,核心思想是上面两个网络合成一个进行train
HTC
Generate CLIP image embedding -> Image Decoder
本质上是原先text embedding <-> image embedding通过loss拉近,现在通过network学习text embedding->image embedding,实现end2end
Imagen
通过多级upsample实现大分辨率图片生成
SAMCR
20B参数的分布式训练
Fine tuning: 普通人也能训……吗?
PS-PEPR
prompt tuning, NLP mode, soft prompt
多种task的监督信息通过一个统一的embedding生成一个查询的prompt统一对大模型查询
Chain of thought,一步一步推理得到结果
GPT-U(GPT understands, Too)
LLAMA-Adapter:
freeze大模型,对每层训一个小的adapter,针对下游任务做一个finetune
没有节省资源,因为训练要保证梯度不断,所以还要保留大模型梯度,相当于梯度更多了,需要训练资源更大
LoRA
只训一个Low-rank的side network,不需要保存大模型梯度
Low-rank: $k\times k\rightarrow k\times c+c\times k(c\lt k)$ (听起来有点像是depthwise conv或是ResNet)
diffusion overview