issues
search
chaos-moon
/
paper_daily
One paper a day, keep laziness away.
MIT License
7
stars
3
forks
source link
Microsoft CVPR2023论文分享会
#10
Open
zc12345
opened
1 year ago
zc12345
commented
1 year ago
MSRA_CVPR2023_share
report: 简约性和自洽性原则:从人工智能到自主智能
reporter:
马毅
related works:
book
ppt slides
paper
report video 1
report video 2
report highlight:
现在做的东西其实还是过去50年代研究的theory层次
现在大模型的方向应该是不对的,需要去做更本质的东西,他强推的是压缩感知理论
当前的大模型在做的方向其实是把原来的闭环打开了,用更多算力去做更基础的感知;普通researcher实际应该做更多闭环的工作
presentation
Visual Generation
探索无文本参与训练的文本驱动图像编辑技术
CLIP + StyleGAN -> image edit
paper:
DeltaEdit: Exploring Text-free Training for Text-Driven Image Manipulation
code:
DeltaEdit
将CLIP的text和image embedding差值映射到同一个latent space,从差值空间预测StyleGAN的编辑方向
基于多模态扩散模型的联合音视频生成
diffusion model + audio2video
paper:
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
code:
MM-Diffusion(CVPR 2023)
用一个解耦扩散模型统一版面生成
diffusion model + 版面设计
paper:
Unifying Layout Generation with a Decoupled Diffusion Model
decouple first, diffusion then
基于扩散模型的高质量3D数字人建模方法
diffusion model + NeRF + 3D avatar
paper:
RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion
project:
RODIN Diffusion
首个3D diffusion model,多视角图消除2D图片几何歧义性
Visual Foundation Model
自监督学习的理论理解
王亦森
contrastive learning -> MAE
MAE 最好的mask ratio=0.75 可以理论计算得出
无令牌混合器的视觉骨干网络设计
paper:
RIFormer: Keep Your Vision Backbone Effective But Removing Token Mixer
project:
RIFormer
code:
riformer
background: MetaFormer
motivation: token mixer是否可以移除?46.3%的latency都是token mixer
基于PoolFormer,用identity替代pool操作(最简单的token mixer):掉点,但是可以通过各种优化层面的affine module补偿回来,并在cpu上速度更快20+%
CLIP-ViP:基于图像语言预训练模型的视频语言表征学习
paper:
2209.06430
ICLR2023
code:
CLIP-ViP
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining
paper:
2208.12262
ECCV2022oral
code:
MaskCLIP
coming soon...
生成式pretrain: dense,但是没有global
Masked Pixel Prediction -> Masked Patch Predicting -> Masked Representation Predicting
Context Encoder(2016.4) -> ImageGPT(2020.2) -> BEiT(2021.6) -> MAE/SimMIM/PeCo/MaskFeat(2021.11) -> Data2Vec/BootMAE(2022.3)
判别式pretrain: global但是缺少dense信息
Instance Discrimination -> Contrastive Learning -> Language Supervision
Instance Discrimination(2018.5) -> MoCo/SimCLR(2020.2) -> CLIP/ALIGN(2021.2) -> BLIP/SimVLM/CoCa(2022.1)
motivation: CLIP+MIM -> MaskCLIP
utils: 顺便一提有一个segmentation的工作也叫MaskCLIP,用CLIP做seg
提示、生成、缓存:基础预训练模型的合作能显著增强小样本学习性能
paper:
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners
code:
CaFo
GPT-3 + CLIP + DINO + DALL-E
GPT-3 prompt: 一个类别的特征描述
DALL-E根据prompt生成图片
CLIP+DINO的cache:因为DALL-E的数据样本较少,k-v结构存feature
pipeline:
GPT换成ChatGPT,DALL-E换成stable diffusion效果并没有变好
基于元学习的广义零样本类增量学习方法
panel
大模型时代怎么做科研?
chain of thought
few-shot, 更好交互, 垂直细分任务
大模型+大数据下网络设计模型结构等trick都没用了?
person 1
视觉模型还没有出现scaling law,ViT等结构是否在更多数据量下依然work依然有待探索
data-centric,数据层面探索
foundation model需要视觉->多模态,接入language model/多模态,token怎么设计和学习
LLM+CV下的新架构,CLIP不一定是最优
person 2
多模态:CV+language之间的alignment,在下游任务下是否有更优
task-independent的pretrain model
CV在实际场景下的应用
person 3
Google: 3B->22B只涨点0.+%
Meta: Segment Anything并不能做到anything
还没出现符合scaling law的范式
Vision的task比NLP更复杂,很难找到一个合适的范式适合所有任务
大模型close source下的理论研究?
理论研究滞后于算法新模型提出
能提供一些insight: 哪些做法一定是不work的?
未来的foundation model?是Mixture of Experts还是All in One?是像NLP一样自洽闭环还是引入NLP等多模态?
person 1
scaling law存在于next token prediction,BERT/MAE是有上限的
person 2
存在大一统模型,但是具体到下游task要做得更好还是需要finetune pretraining
person 3
LLM作为中枢agent,zero-shot (听起来像是AgentGPT/Visual ChatGPT/HuggingGPT)
模型产生价值需要和人交互
person 4
我们需要什么样的Vision Foundation Model? 为什么做Foundation? 能力边界?
Vision Foundation Model For Vision Tasks (x)
Multi-modal Foundation Model For Multi-Modal Tasks (√)
检测/分类更global, pose/seg更generative更dense
Vision Model scaling up需要更大的算力1000B以上参数? 工程层面还没有解决
轻量化的问题:transformer在端侧还没法部署
person 5
垂直领域:模型可解释可信赖,数据安全隐私
person 6
最终的Foundation Model一定是多模态的
多模态不只是Vision和Language,还要引入物理世界的control交互(强化学习?RLHF?)
Visual + X
基于语义条件扩散模型的图像描述生成网络
paper:
Semantic-Conditional Diffusion Networks for Image Captioning
code:
SCD-Net
端到端自动驾驶算法设计思考
paper:
Planning-oriented Autonomous Driving
code:
UniAD
project:
UniAD
跨时空上下文蒸馏的连续手语识别
FLAG3D: A 3D Fitness Activity Dataset with Language Instruction
手语识别与翻译
MSRA_CVPR2023_share
report: 简约性和自洽性原则:从人工智能到自主智能
presentation
Visual Generation
Visual Foundation Model
panel
Visual + X