hwjiang1510 / LEAP

[ICLR 2024] Code for LEAP: Liberate Sparse-view 3D Modeling from Camera Poses
172 stars 6 forks source link

(not issue) technical discusstion/advice-seeking #8

Closed yuedajiong closed 4 months ago

yuedajiong commented 9 months ago

翰文大神,您好:

  1. 我想设计和实现(包括很好的训练出),带有强物理一致(个人认为显式表示是必须的)的3D/4D的端到端的模型,我认为最终“理想主义”的输出不是图片视频或者独立立体对象和场景,二是一个2D(远景)+2.5G(中景GS-like,pose-sensitive) + 3D/4D(近景,动态可交互),并可以实时交互和双目渲染(给VR立体)。https://github.com/yuedajiong/super-ai 第二张图 在学习和设计的过程中,我几乎扫完了所有早期CV,Mesh,NeRF, SDF,GS等所有论文。 在这里,我想表达的是,大家都关注于symbol方向的chatgpt/gemini等,余下有限的AI研究者在vision方向也被nerf, gs甚至jepa和最新的sora吸引了绝大部分注意力,其实完全低估了类似你们这种leap论文在通向“牛逼完美理想主义:交互式动态立体世界”的在pipeline上重要性。绝对不是美言。

    1. 一点具体问题的讨论: a) 我和jepa/ijepa的作者请教过一个问题,我们需要在什么空间来做vision上的学习计算,早期是pixel空间,jepa/lecun等是laten,sora也是laten。 但我认为,可能是都必要: laten上更抽象紧致高效,但pixel上的操作也是必须的。比如:把产生的人脸鼻子上的那个红色像素点垃圾给删除掉。 这种就必须要回到像素空间操作才能精准。 b) 在我的那个系统的算法流程图中,(算法已经实现调试好),有比较重要的一部分,就是在对象/场景级别的扩展的时候,我构造了一个Differentable Hash(可以e2e),相比于all in one network的LLM类似那种,我认为,类似婴儿学习,开始几百几千对象可能需要所有网络参与,当学习到一定程度,其实可以冻结网络,新扩展对象的时候,只需要infer出这些对象在hash中的相关特征信息。 c) 无论 sora,还是leap,还是其他3d recon,都有时空一致性挑战。sora是在compressed then laten patchs上组织为grid,你leap这里采用了random sample n-frames,我的问题是: offset: offset+n的采样,或者其他的表示诸如从sora-grid上借鉴,是否有可能更快更好。 d)如果要升级发展为4D含时的表示,我看了几乎所有GS-4D的表示,也学习过一些传统游戏中动作的表示(骨骼动画,帧,粒子,smplx-deform矩阵等)。 在Neural 4D方向,你有什么看法呢? (nerf+gs的作者最近好像在合作研究GS的下一代表示,不知道是否会更关注surface和motion。)
  2. 如果你有兴趣,再继续请教其他,太多问题了。

yuedajiong commented 9 months ago

https://github.com/yuedajiong/super-ai/blob/main/superai-20240218-leap.png

superai-20240218-leap

yuedajiong commented 9 months ago

网络结构之容量分析:

  1. 前backbon甚至可以冻结,意味着主要用来提取采样的2D图片的特征,也可以认为转换到laten空间开始学习。因此,可以认为这一部分对这个3D任务本身需要学习记忆来说不是主要部分。
  2. 前backbon-out是相对简单的桥接。
  3. 前 cross-view主要侧重在跨图片的信息融合
  4. 后volume-render是侧重vol渲染。
  5. 后feature+density的render部分是侧重从原feature3d转换到feature'+density。 ---所以,总体来说,要学习记忆3D任务本身的参数主要侧重在:
  6. neck: 主要想融合pe,这个部分缺省是2大层。 不过这里是可选。
  7. lift:主要的2Dimage‘S’到3D neural laten的LIFT。 重点:3d task本身,网络的对海量对象/场景的拟合能力的容量,主要在这一部分。缺省是三层。

---没有做试验,个人感觉网络这一部分容量有限。 相比于Diffusion之类的数十数百甚至上千层的记忆容量,可能过于小了。又没有额外的vector/memory-network网络来辅助。这逼的这部分要求很高的“抽象压缩”能力。

yuedajiong commented 9 months ago

在完整的全独立立体动态视觉系统中,stereo_locate模块是少不了的,至少在train的时候。