没有冒犯大神们的意思，赞美的话就不说了，说说我理解的，和理想模型之间的差距。

yuedajiong commented 8 months ago

3D的数据可以用，但我坚持认为，在3D上监督做，不是最终的路，还是要到“2D-Image + 极度丰富的文本描述“，这两种约束做监督。
从算法架构上，我觉得，假设我们最终系统，假设能支撑比较好的生成100万类/个对象（先不说场景），我觉得最多前面1万类/个对象可能需要端到端的学习，而99%的后来的新对象，不需要参与端到端的训练，只是跑整个算法很小的一个子网（几个环节），提取到必要的特征，可以类似普通数据库能存下来就好。然后infer的时候能“近邻搜”出来（可以是个NN来表示更合适的距离），直接走后面的流程。这样才能更大的支持到1000万类/个。这一点，数字是随意估计的，核心想说的，必须要有几乎零训练的线性/亚线性的扩展模式。diffusion那种靠参数记忆的，我觉得对于3D（shape+texture+motion+interaction+....)，做到真实世界普通人觉得华丽，或者UE5可以直接用（MetaHuman那种，还带LOD），模型大的要死。文章中，codebook那些地方，也就是VAE的细脖子，我觉得迟早是推广到真实世界后容量的瓶颈。
其他不说了，怕喷。

最后开个认真的的玩笑：从数据量上看：Objaverse-mix看起来3d的很大，相比于text, 2d-image做出chatgpt那种普通人觉得华丽的效果，差了至少两个数量级，咋弥补；从算力上看：8个A100训练4周，感觉是从0训练，那估计也差了两个数量级。

AImind commented 8 months ago

Sorry for getting back to you late. I've just been swamped with a bunch of deadlines. (1) Indeed, the strategy of employing 2D priors for supervising 3D model training has garnered significant interest lately. But there's still a whole lot we can do with 3D data directly. Like, MeshGPT? It's got a lot of people talking. (2) Applying open-vocabulary to 3D is indeed a great idea, and we will further consider this possibility. Our work still has some flaws, and we will strive to improve them in our future work. Anyway, thanks for showing interest in our work.

yuedajiong commented 8 months ago

很牛的工作啊。大神（们）千万不要以为我是冒犯。我是个人技术兴趣，一直在做立体重构/生成这个方向。这个方向，稍微有点意思的论文，我都在看在学。自己也有折腾，也有自我否定，形成了自己心目中理想的算法（从需求，到技术路径），所以，看到可以借鉴的论文，都会和自己想象的理想算法去对比。然后直接的表达。就是希望更完美，一张图一段文字就来一个sora那种级别的3D版本。

FVPLab / Argus-3D

没有冒犯大神们的意思，赞美的话就不说了，说说我理解的，和理想模型之间的差距。 #12