changh95 commented 1 month ago

Interesting papers

카메라 포즈 찾기의 전쟁?

Pan 2024 - Global Structure-from-Motion Revisited
- COLMAP의 저자 참여. COLMAP의 global mapping 파트 개선. 일주일 걸리는 작업 -> 5시간 작업.

facade.webm

뒷 내용은 @Philipshrimp 님 발표에도 반복되서... 짧게...

Brachman 2024 - Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer
- Niantic (포켓몬고)의 Ace0. DSAC, DSAC++, ACE 의 후속작.
Wang 2024 - VGGSfM: Visual Geometry Grounded Deep Structure From Motion
- Meta의 VGGSfM
Leroy 2024 - Grounding Image Matching in 3D with MASt3R\
- 네이버랩스의 MASt3rR 이전 연구 DUSt3R의 후속작

NeRF & Gaussian Splatting

Bao 2024 - 3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities
- 최신 3DGS survey 논문. 3DGS 입문자에게 추천.
Yao 2024 - A Comparative Study of Neural Surface Reconstruction for Scientific Visualization
- NeRF vs NeuS vs Instant-NGP, TensoRF / NeuS vs NeuS2 vs Neuralangelo vs IDR 비교 논문
Kerbl 2024 - A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets
- Large-scale dataset에서 3DGS 하는 방법. 논문은 나온지 꽤 됬지만, 코드는 이제야 릴리즈.

Borts 2024 - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar
- FMCW 레이더 기반 NeRF
- https://light.princeton.edu/wp-content/uploads/2024/06/seq10_drive_through_slow_newTex_720p.mp4

NVIDIA의 fVDB
- OpenVDB를 NVIDIA에서 가속 + 기능 추가
- Mesh Generation NIM: Point Cloud에서 Mesh 생성
- NeRF-XL NIM: Omniverse Cloud API를 이용해 OpenUSD 포맷으로 NeRF 공간 생성
- Physics Super-Res NIM: OpenUSD 기반의 high resolution physics simulation
- https://youtu.be/6JCp0hXb3S4?si=meJ6LTQrgcG2XFi_

Open-set 3D detection

Maggio 2024 - Clio: Real-time Task-Driven Open-Set 3D Scene Graphs
- Task prompt로 open-set detection

Werby 2024 - Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation
- General 3D open-set detection

Conference tutorials

Other

Meta의 Segment-Anything-Model v2

https://github.com/user-attachments/assets/0524d916-1e87-42cc-9e04-bd96c2e7b436

Wang 2024 - Shape of Motion: 4D Reconstruction from a Single Video

https://github.com/user-attachments/assets/96ea317d-e155-4c7b-a87c-8bb1440011c4

Koide 2024 - gtsam_points
- GTSAM에서 사용 가능한 ICP, GICP, VGICP, LOAM, Photometric ICP, CT_ICP, 및 LiDAR bundle adjustment를 위한 다양한 factor 라이브러리
- 1 에서 소개한 GLIM에서 사용
- https://youtu.be/Xv2-qDlzQYM?si=Fn7cB7MY-hPU_wKo
Unitree Go 2 wheel mode

Job postings

West Virginia University, Faculty position in Robotics 링크
UCLA, R&D Engineer 링크

james-joobs commented 1 month ago

Interesting papers

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Mesh Reconstruction이란?

문제 인식 • 재구성 및 생성된 3D 자산이 수작업으로 제작된 자산의 품질에 도달 • 그러나 이러한 자산은 3D 산업 응용을 위해 항상 메쉬로 변환되어야 함 • 현재 메쉬 추출 방법은 아티스트가 만든 메쉬(AM)보다 품질이 낮음 • 현재 방법은 조밀한 면에 의존하고 기하학적 특징을 무시하여 비효율적이고 복잡한 후처리 및 낮은 표현 품질을 초래
해결책 제시 • MeshAnything 모델 소개 • 메쉬 추출을 생성 문제로 취급, 지정된 형태와 일치하는 AM 생성 • 3D 자산을 AM으로 변환하여 다양한 3D 자산 생산 방법과 통합 가능 • 3D 산업 응용 향상
모델 아키텍처 • VQ-VAE와 형태 조건 디코더 전용 트랜스포머로 구성 • 먼저 VQ-VAE를 사용하여 메쉬 어휘 학습 • 형태 조건 디코더 전용 트랜스포머를 사용하여 이 어휘로 형태 조건 자기회귀 메쉬 생성 훈련
실험 결과 • AM을 수백 배 적은 면으로 생성 • 저장, 렌더링, 시뮬레이션 효율성 크게 향상 • 이전 방법과 비교하여 정밀도 유지

Mesh Anything 파이프라인 설명

모델 개요 • MeshAnything은 주어진 3D 형태를 준수하는 아티스트가 만든 메쉬(Artist-Created Meshes)를 생성하는 autoregressive 트랜스포머
프로세스 설명 • 주어진 3D 자산에서 포인트 클라우드 샘플링 • 샘플링된 포인트 클라우드를 특징으로 인코딩 • 디코더 전용 트랜스포머에 이 특징 주입 • 형태 조건 메쉬 생성 달성
비교 및 차별점 • MeshGPT와 같은 방법과 비교 • MeshGPT: 복잡한 3D 형태 분포를 직접 학습 • MeshAnything: 최적화된 토폴로지를 통해 형태 효율적으로 구성 • 복잡한 3D 형태 분포 학습 회피 • 훈련 부담 감소 및 확장성 향상

주요 포인트 • MeshAnything은 주어진 3D 형태에 맞는 아티스트가 만든 메쉬를 생성하는 autoregressive 트랜스포머입니다 • 주어진 3D 자산에서 포인트 클라우드를 샘플링하여 특징으로 인코딩한 후, 디코더 전용 트랜스포머에 주입하여 형태 조건 메쉬 생성을 달성합니다. • MeshGPT와 달리 복잡한 3D 형태 분포를 직접 학습하지 않고, 최적화된 토폴로지를 통해 효율적으로 형태를 구성하여 훈련 부담을 줄이고 확장성을 향상시킵니다.

Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models

4D 애니메이션 생성

프레임워크 개요 • 새로운 4D 콘텐츠 생성 프레임워크: Diffusion4D • 비디오 확산 모델을 적용하여 공간적-시간적 일관된 새로운 뷰 명시적 합성
데이터 세트 활용 • 큐레이팅된 동적 3D 데이터 세트 사용 • 동적 3D 자산의 궤도 뷰를 합성 가능
모델 특징 • 4D 인식 비디오 확산 모델 개발 • 최신 4D 리컨스트럭션 파이프라인과 통합 • 4D 콘텐츠를 몇 분 안에 효율적으로 생성
방법의 우수성 • 텍스트, 단일 이미지 및 3D 자산에서 다양한 프롬프트 양식 지원 • 생성 효율성과 4D 지오메트리 일관성에서 선행연구보다 능가
통합 및 적용 • 기존의 4D 리컨 파이프라인과의 통합 • 다양한 입력 형태로부터 4D 콘텐츠 생성

https://github.com/user-attachments/assets/f6e2490d-d75d-450b-8aa7-8733a6ee2a40

아키텍쳐 주요 포인트 • 큐레이팅된 데이터셋을 사용하여 대량의 동적 3D 자산 궤도 비디오를 생성하고, 이를 통해 4D 인식 비디오 확산 모델을 훈련 • 기존 단안 비디오 생성 모델의 3D 기하학적 사전 지식이 부족하여, 최신 3D 인식 비디오 생성 모델을 사용 • 사전 훈련된 3D 인식 비디오 확산 모델을 4D 인식 궤도 비디오 생성 작업에 맞게 미세조정 • 운동 크기 가이던스를 명시하고, 3D-4D 동역학을 훈련 단계에서 학습하며, 추론 단계에서 3D 객체 동역학을 증강 • 큐레이팅된 데이터셋을 효과적으로 활용하고, 다양한 조건 모달리티를 수용하도록 모델 아키텍처를 커스터마이징 진행

4D 디퓨전 아키텍쳐 method 78719a46fbec1bbb1ff1

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

https://github.com/user-attachments/assets/78989df3-f31d-4c8a-be82-bde2fac7f444

테이크아웃

•   상황에 맞는 AI와 실시간 정보 접근이 가능한 디스플레이를 결합한 세련되고 가벼운 AR 안경
•   시스템은 물리적 환경의 3D 레이아웃을 이해해야 함
•   AR 안경은 디지털 오버레이와 물리적 공간을 혼합, 턴 바이 턴 방향 제공 가능
•   3D 장면 표현 생성은 복잡한 작업
•   현재 MR 헤드셋은 원시 시각 데이터를 기반으로 가상 표현 생성
•   원시 데이터를 환경의 특징을 설명하는 모양으로 변환
•   기존 방식은 독특하거나 불규칙한 공간에서 오류 발생 가능

소개

•   SceneScript는 하드 코딩된 규칙 대신 엔드 투 엔드 기계 학습 사용
•   방의 기하학을 직접 추론
•   컴팩트한 물리적 장면 표현으로 메모리 요구 사항 감소
•   선명한 지오메트리 생성, 해석 가능하고 편집 가능

학습 방법

•   SceneScript는 LLM의 다음 토큰 예측 개념 활용
•   일반 언어 토큰 대신 ‘벽’, ‘문’ 등의 아키텍처 토큰 예측
•   많은 양의 훈련 데이터 제공으로 시각적 데이터를 장면의 기본 표현으로 인코딩 학습
•   방 레이아웃 설명하는 언어로 디코딩
•   상당한 양의 데이터와 사생활 보호 필요

시뮬레이션에서 훈련

•   웹에서 공개된 텍스트 소스가 아닌 물리적 공간 데이터 필요
•   Aria Synthetic Environments라는 합성 데이터 세트 생성
•   100,000개의 독특한 내부 환경, SceneScript 언어로 설명
•   각 장면을 걷는 시뮬레이션된 비디오와 짝을 이룸
•   Project Aria 안경의 센서 특성 사용, 시뮬레이션에서 훈련
•   실제 환경으로 일반화할 수 있는 모델 검증