issues
search
chaos-moon
/
paper_daily
One paper a day, keep laziness away.
MIT License
7
stars
3
forks
source link
Parti
#6
Open
zc12345
opened
1 year ago
zc12345
commented
1 year ago
Pathways Autoregressive Text-to-Image model (Parti)
2206.10789
blog
Method
inspiration
把Text2Image任务看作文本到图片的翻译,seq2seq任务可以直接用transformer的结构做
当然实际做的时候token->image还是用ViT-VQGAN解码的,并不是纯粹的translator
用autoregressive(AR)的方式生成图像,可以认为是文生图版的GPT?
contribution
提出了一个不同于diffusion的text2image模式,并且随着参数量不同增加(350M->750M->3B->20B),模型性能也在不断scaling,模型越大生成的image越好
足够大的模型压缩了足够多的真实世界知识,使得生成的图像更加合理(符合人的认知)
提出了一个PartiPrompts benchmark,prompt从简单到复杂,用于评估不同Text2Image模型的好坏
结果:SOTA zero-shot FID score of 7.23 and finetuned FID score of 3.22 on MS-COCO.
limitations
Parti的局限性不如说是所有text2image模型的局限性
不会数数
太复杂的场景无法生成
缺少空间远近/相对位置认知
缺少大小认知(蟑螂在飞机上)
prompt中只能说存在什么,不能说没有什么(感觉这个可能并不完全是一个bug,可以认为是feature?)
思考
思路不算很复杂,主要在于巨量数据和大模型,大模型才是硬道理啊
我最开始以为这是很新的工作,后来发现这是去年的工作了
看起来是很顺理成章的工作,唯一的问题在于就开源了一个prompt……太难follow了,也就看个思路吧
看paper很多东西其实做的并没有那么progressive,想法很大胆,实现很一般……你以为的:Text2Image的translator,实际上:Text token <-> Image token(这不还是CLIP/VQ-VAE吗?) + image token detokenizer(ViT-VQGAN)
zc12345
commented
1 year ago
Google Pathways系列模型
T5
1910.10683
不是pathway系列,对标的是GPT-2
Text-To-Text Transfer Transformer (T5),将NLP的范式统一为text2text的transfer learning,使用的是类BERT的encoder-decoder结构
使用的数据集是Colossal Clean Crawled Corpus (C4)
PaLM
2204.02311
Pathways Language Model (PaLM)
Scaling to 540 Billion Parameters for Breakthrough Performance
对标GPT-3,使用Pathways系统训练
PaLI
2209.06794
PaLI: A Jointly-Scaled Multilingual Language-Image Model
最大模型17B(ViT-e@4B+Transformer@13B)
使用了100+种语言的text-image数据集WebLI
对标多语言版本的CLIP
Parti
2206.10789
Pathways Autoregressive Text-to-Image model(Parti)
对标DALL-E,用Autoregressive的方式做text2img
Pathways Autoregressive Text-to-Image model (Parti)
Method
inspiration
contribution
limitations
思考