(not issue) technical discusstion/advice-seeking

yuedajiong commented 9 months ago

翰文大神，您好：

我想设计和实现（包括很好的训练出），带有强物理一致（个人认为显式表示是必须的）的3D/4D的端到端的模型，我认为最终“理想主义”的输出不是图片视频或者独立立体对象和场景，二是一个2D(远景)+2.5G(中景GS-like，pose-sensitive) + 3D/4D(近景，动态可交互)，并可以实时交互和双目渲染（给VR立体）。https://github.com/yuedajiong/super-ai 第二张图在学习和设计的过程中，我几乎扫完了所有早期CV，Mesh，NeRF, SDF，GS等所有论文。在这里，我想表达的是，大家都关注于symbol方向的chatgpt/gemini等，余下有限的AI研究者在vision方向也被nerf, gs甚至jepa和最新的sora吸引了绝大部分注意力，其实完全低估了类似你们这种leap论文在通向“牛逼完美理想主义：交互式动态立体世界”的在pipeline上重要性。绝对不是美言。
1. 一点具体问题的讨论： a) 我和jepa/ijepa的作者请教过一个问题，我们需要在什么空间来做vision上的学习计算，早期是pixel空间，jepa/lecun等是laten，sora也是laten。但我认为，可能是都必要： laten上更抽象紧致高效，但pixel上的操作也是必须的。比如：把产生的人脸鼻子上的那个红色像素点垃圾给删除掉。这种就必须要回到像素空间操作才能精准。 b) 在我的那个系统的算法流程图中，（算法已经实现调试好），有比较重要的一部分，就是在对象/场景级别的扩展的时候，我构造了一个Differentable Hash（可以e2e)，相比于all in one network的LLM类似那种，我认为，类似婴儿学习，开始几百几千对象可能需要所有网络参与，当学习到一定程度，其实可以冻结网络，新扩展对象的时候，只需要infer出这些对象在hash中的相关特征信息。 c) 无论 sora，还是leap，还是其他3d recon，都有时空一致性挑战。sora是在compressed then laten patchs上组织为grid，你leap这里采用了random sample n-frames，我的问题是： offset: offset+n的采样，或者其他的表示诸如从sora-grid上借鉴，是否有可能更快更好。 d)如果要升级发展为4D含时的表示，我看了几乎所有GS-4D的表示，也学习过一些传统游戏中动作的表示（骨骼动画，帧，粒子，smplx-deform矩阵等）。在Neural 4D方向，你有什么看法呢？ (nerf+gs的作者最近好像在合作研究GS的下一代表示，不知道是否会更关注surface和motion。）
如果你有兴趣，再继续请教其他，太多问题了。

yuedajiong commented 9 months ago

https://github.com/yuedajiong/super-ai/blob/main/superai-20240218-leap.png

superai-20240218-leap

yuedajiong commented 9 months ago

网络结构之容量分析：

前backbon甚至可以冻结，意味着主要用来提取采样的2D图片的特征，也可以认为转换到laten空间开始学习。因此，可以认为这一部分对这个3D任务本身需要学习记忆来说不是主要部分。
前backbon-out是相对简单的桥接。
前 cross-view主要侧重在跨图片的信息融合
后volume-render是侧重vol渲染。
后feature+density的render部分是侧重从原feature3d转换到feature'+density。 ---所以，总体来说，要学习记忆3D任务本身的参数主要侧重在：
neck: 主要想融合pe，这个部分缺省是2大层。不过这里是可选。
lift：主要的2Dimage‘S’到3D neural laten的LIFT。重点：3d task本身，网络的对海量对象/场景的拟合能力的容量，主要在这一部分。缺省是三层。

---没有做试验，个人感觉网络这一部分容量有限。相比于Diffusion之类的数十数百甚至上千层的记忆容量，可能过于小了。又没有额外的vector/memory-network网络来辅助。这逼的这部分要求很高的“抽象压缩”能力。

yuedajiong commented 9 months ago

在完整的全独立立体动态视觉系统中，stereo_locate模块是少不了的，至少在train的时候。

hwjiang1510 / LEAP

(not issue) technical discusstion/advice-seeking #8