changh95 / WeeklySpatialAI

Weekly discussions on Spatial AI amongst members of Spatial AI KR
75 stars 2 forks source link

2024.10.30 - #13 - Vision-Language Model (VLM), Large Spatial Model, PLGS, Niantic Scaniverse #15

Open changh95 opened 4 weeks ago

changh95 commented 4 weeks ago

Interesting papers

Meta의 'An Introduction to Vision-Language Modeling'

image

VLM Survey paper

image

Large Spatial Model: End-to-end Unposed Images to Semantic 3D

image

Where Am I and What Will I See: AN AUTO-REGRESSIVE MODEL FOR SPATIAL LOCALIZATION AND VIEW PREDICTION

image

PLGS: Robust Panoptic Lifting with 3D Gaussian Splatting

image

RANSAC Back to SOTA: A Two-stage Consensus Filtering for Real-time 3D Registration

image

image

james-joobs commented 3 weeks ago

Scaniverse 및 3D Gaussian Splatting(3DGS) 기술 분석

Niantic의 Scaniverse 앱은 3D Gaussian Splatting(3DGS) 기술을 활용해 모바일 디바이스에서 실시간으로 고품질의 3D 모델 생성 지원. 뉴럴 렌더링의 복잡성을 줄이고 온디바이스 처리로 발열을 최소화하며 빠른 스캐닝 및 재구성 가능.

creating-splats-328846f3806910d4225302dde578064b

1. Scaniverse 앱과 3DGS의 통합

Scaniverse는 LiDAR 센서가 장착된 iPhone 및 일부 Android 기기에서 동작하며, 간단한 스캔으로 사실적인 3D 모델 생성 가능. 3D Gaussian Splatting은 메쉬 기반 3D 재구성 대신, 각 점을 가우시안 분포로 표현하는 "스플랫(splat)" 방식으로 장면을 렌더링함으로써 데이터 구조 경량화와 렌더링 효율성 향상.

2. Gaussian Splatting의 기술적 배경

Gaussian Splatting은 포인트 클라우드를 가우시안 분포로 모델링하는 뉴럴 렌더링의 한 종류로, 각 스플랫이 위치, 색상, 공분산 등의 파라미터를 가지며 최종 이미지를 렌더링하는 방식 채택:

3. MVSplat 프로젝트: 온디바이스 다중 뷰 스테레오 재구성

Screenshot 2024-10-30 at 6 59 04 PM

MVSplat은 3DGS 기술을 활용한 오픈 소스 프로젝트로, 다중 뷰 스테레오 기반의 스플랫 기반 3D 재구성 제공. 주요 특징:

4. RTGS: 효율성 중심 가지치기 및 중심 시야 렌더링

RTGS (Real-Time Gaussian Splatting) 논문에서는 Efficiency-Guided PruningFoveated Rendering을 통해 실시간 성능을 극대화:

x1

x7

5. 모델 경량화와 최신 연구 동향

3DGS의 모델 경량화 및 효율성 제고를 위해 적용되는 다양한 기법:

(실제로 스캐닝 후 결과 링크)

환경 : 아이폰15pro 비행기 모드 스캐닝 시간 : 40여초 프로세싱 소요시간 : 30초 렌더링(사실상 없음) : mileseconds

https://scaniverse.com/scan/e2nuzojgkrxtq543