一点具体问题的讨论:
a) 我和jepa/ijepa的作者请教过一个问题,我们需要在什么空间来做vision上的学习计算,早期是pixel空间,jepa/lecun等是laten,sora也是laten。 但我认为,可能是都必要: laten上更抽象紧致高效,但pixel上的操作也是必须的。比如:把产生的人脸鼻子上的那个红色像素点垃圾给删除掉。 这种就必须要回到像素空间操作才能精准。
b) 在我的那个系统的算法流程图中,(算法已经实现调试好),有比较重要的一部分,就是在对象/场景级别的扩展的时候,我构造了一个Differentable Hash(可以e2e),相比于all in one network的LLM类似那种,我认为,类似婴儿学习,开始几百几千对象可能需要所有网络参与,当学习到一定程度,其实可以冻结网络,新扩展对象的时候,只需要infer出这些对象在hash中的相关特征信息。
c) 无论 sora,还是leap,还是其他3d recon,都有时空一致性挑战。sora是在compressed then laten patchs上组织为grid,你leap这里采用了random sample n-frames,我的问题是: offset: offset+n的采样,或者其他的表示诸如从sora-grid上借鉴,是否有可能更快更好。
d)如果要升级发展为4D含时的表示,我看了几乎所有GS-4D的表示,也学习过一些传统游戏中动作的表示(骨骼动画,帧,粒子,smplx-deform矩阵等)。 在Neural 4D方向,你有什么看法呢? (nerf+gs的作者最近好像在合作研究GS的下一代表示,不知道是否会更关注surface和motion。)
翰文大神,您好:
我想设计和实现(包括很好的训练出),带有强物理一致(个人认为显式表示是必须的)的3D/4D的端到端的模型,我认为最终“理想主义”的输出不是图片视频或者独立立体对象和场景,二是一个2D(远景)+2.5G(中景GS-like,pose-sensitive) + 3D/4D(近景,动态可交互),并可以实时交互和双目渲染(给VR立体)。https://github.com/yuedajiong/super-ai 第二张图 在学习和设计的过程中,我几乎扫完了所有早期CV,Mesh,NeRF, SDF,GS等所有论文。 在这里,我想表达的是,大家都关注于symbol方向的chatgpt/gemini等,余下有限的AI研究者在vision方向也被nerf, gs甚至jepa和最新的sora吸引了绝大部分注意力,其实完全低估了类似你们这种leap论文在通向“牛逼完美理想主义:交互式动态立体世界”的在pipeline上重要性。绝对不是美言。
如果你有兴趣,再继续请教其他,太多问题了。