changh95 / WeeklySpatialAI

Weekly discussions on Spatial AI amongst members of Spatial AI KR
66 stars 1 forks source link

2024.07.31 - #2 #4

Open changh95 opened 1 month ago

changh95 commented 1 month ago

Interesting papers

카메라 포즈 찾기의 전쟁?

facade.webm

뒷 내용은 @Philipshrimp 님 발표에도 반복되서... 짧게...

NeRF & Gaussian Splatting

image

image

image

Open-set 3D detection

image

image

Conference tutorials

Other

https://github.com/user-attachments/assets/0524d916-1e87-42cc-9e04-bd96c2e7b436

https://github.com/user-attachments/assets/96ea317d-e155-4c7b-a87c-8bb1440011c4

image


Job postings

james-joobs commented 1 month ago

Interesting papers

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Mesh Reconstruction이란?

  1. 문제 인식 • 재구성 및 생성된 3D 자산이 수작업으로 제작된 자산의 품질에 도달 • 그러나 이러한 자산은 3D 산업 응용을 위해 항상 메쉬로 변환되어야 함 • 현재 메쉬 추출 방법은 아티스트가 만든 메쉬(AM)보다 품질이 낮음 • 현재 방법은 조밀한 면에 의존하고 기하학적 특징을 무시하여 비효율적이고 복잡한 후처리 및 낮은 표현 품질을 초래
  2. 해결책 제시 • MeshAnything 모델 소개 • 메쉬 추출을 생성 문제로 취급, 지정된 형태와 일치하는 AM 생성 • 3D 자산을 AM으로 변환하여 다양한 3D 자산 생산 방법과 통합 가능 • 3D 산업 응용 향상
  3. 모델 아키텍처 • VQ-VAE와 형태 조건 디코더 전용 트랜스포머로 구성 • 먼저 VQ-VAE를 사용하여 메쉬 어휘 학습 • 형태 조건 디코더 전용 트랜스포머를 사용하여 이 어휘로 형태 조건 자기회귀 메쉬 생성 훈련
  4. 실험 결과 • AM을 수백 배 적은 면으로 생성 • 저장, 렌더링, 시뮬레이션 효율성 크게 향상 • 이전 방법과 비교하여 정밀도 유지
스크린샷 2024-07-31 17 37 59

Mesh Anything 파이프라인 설명

  1. 모델 개요 • MeshAnything은 주어진 3D 형태를 준수하는 아티스트가 만든 메쉬(Artist-Created Meshes)를 생성하는 autoregressive 트랜스포머
  2. 프로세스 설명 • 주어진 3D 자산에서 포인트 클라우드 샘플링 • 샘플링된 포인트 클라우드를 특징으로 인코딩 • 디코더 전용 트랜스포머에 이 특징 주입 • 형태 조건 메쉬 생성 달성
  3. 비교 및 차별점 • MeshGPT와 같은 방법과 비교 • MeshGPT: 복잡한 3D 형태 분포를 직접 학습 • MeshAnything: 최적화된 토폴로지를 통해 형태 효율적으로 구성 • 복잡한 3D 형태 분포 학습 회피 • 훈련 부담 감소 및 확장성 향상

주요 포인트 • MeshAnything은 주어진 3D 형태에 맞는 아티스트가 만든 메쉬를 생성하는 autoregressive 트랜스포머입니다 • 주어진 3D 자산에서 포인트 클라우드를 샘플링하여 특징으로 인코딩한 후, 디코더 전용 트랜스포머에 주입하여 형태 조건 메쉬 생성을 달성합니다. • MeshGPT와 달리 복잡한 3D 형태 분포를 직접 학습하지 않고, 최적화된 토폴로지를 통해 효율적으로 형태를 구성하여 훈련 부담을 줄이고 확장성을 향상시킵니다.

스크린샷 2024-07-31 17 44 06

Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models

4D 애니메이션 생성

  1. 프레임워크 개요 • 새로운 4D 콘텐츠 생성 프레임워크: Diffusion4D • 비디오 확산 모델을 적용하여 공간적-시간적 일관된 새로운 뷰 명시적 합성
  2. 데이터 세트 활용 • 큐레이팅된 동적 3D 데이터 세트 사용 • 동적 3D 자산의 궤도 뷰를 합성 가능
  3. 모델 특징 • 4D 인식 비디오 확산 모델 개발 • 최신 4D 리컨스트럭션 파이프라인과 통합 • 4D 콘텐츠를 몇 분 안에 효율적으로 생성
  4. 방법의 우수성 • 텍스트, 단일 이미지 및 3D 자산에서 다양한 프롬프트 양식 지원 • 생성 효율성과 4D 지오메트리 일관성에서 선행연구보다 능가
  5. 통합 및 적용 • 기존의 4D 리컨 파이프라인과의 통합 • 다양한 입력 형태로부터 4D 콘텐츠 생성

https://github.com/user-attachments/assets/f6e2490d-d75d-450b-8aa7-8733a6ee2a40

아키텍쳐 주요 포인트 • 큐레이팅된 데이터셋을 사용하여 대량의 동적 3D 자산 궤도 비디오를 생성하고, 이를 통해 4D 인식 비디오 확산 모델을 훈련 • 기존 단안 비디오 생성 모델의 3D 기하학적 사전 지식이 부족하여, 최신 3D 인식 비디오 생성 모델을 사용 • 사전 훈련된 3D 인식 비디오 확산 모델을 4D 인식 궤도 비디오 생성 작업에 맞게 미세조정 • 운동 크기 가이던스를 명시하고, 3D-4D 동역학을 훈련 단계에서 학습하며, 추론 단계에서 3D 객체 동역학을 증강 • 큐레이팅된 데이터셋을 효과적으로 활용하고, 다양한 조건 모달리티를 수용하도록 모델 아키텍처를 커스터마이징 진행

4D 디퓨전 아키텍쳐 method 78719a46fbec1bbb1ff1

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

https://github.com/user-attachments/assets/78989df3-f31d-4c8a-be82-bde2fac7f444

테이크아웃

•   상황에 맞는 AI와 실시간 정보 접근이 가능한 디스플레이를 결합한 세련되고 가벼운 AR 안경
•   시스템은 물리적 환경의 3D 레이아웃을 이해해야 함
•   AR 안경은 디지털 오버레이와 물리적 공간을 혼합, 턴 바이 턴 방향 제공 가능
•   3D 장면 표현 생성은 복잡한 작업
•   현재 MR 헤드셋은 원시 시각 데이터를 기반으로 가상 표현 생성
•   원시 데이터를 환경의 특징을 설명하는 모양으로 변환
•   기존 방식은 독특하거나 불규칙한 공간에서 오류 발생 가능

소개

•   SceneScript는 하드 코딩된 규칙 대신 엔드 투 엔드 기계 학습 사용
•   방의 기하학을 직접 추론
•   컴팩트한 물리적 장면 표현으로 메모리 요구 사항 감소
•   선명한 지오메트리 생성, 해석 가능하고 편집 가능

학습 방법

•   SceneScript는 LLM의 다음 토큰 예측 개념 활용
•   일반 언어 토큰 대신 ‘벽’, ‘문’ 등의 아키텍처 토큰 예측
•   많은 양의 훈련 데이터 제공으로 시각적 데이터를 장면의 기본 표현으로 인코딩 학습
•   방 레이아웃 설명하는 언어로 디코딩
•   상당한 양의 데이터와 사생활 보호 필요

시뮬레이션에서 훈련

•   웹에서 공개된 텍스트 소스가 아닌 물리적 공간 데이터 필요
•   Aria Synthetic Environments라는 합성 데이터 세트 생성
•   100,000개의 독특한 내부 환경, SceneScript 언어로 설명
•   각 장면을 걷는 시뮬레이션된 비디오와 짝을 이룸
•   Project Aria 안경의 센서 특성 사용, 시뮬레이션에서 훈련
•   실제 환경으로 일반화할 수 있는 모델 검증
Philipshrimp commented 1 month ago

Interesting papers

COLMAP을 대체하기 위한 방법론

image

VGGSfM vs. MASt3R

NeRF/3DGS

rubidiumchain commented 1 month ago

Interesting papers

( pilippeshin )

image https://robotics-transformer2.github.io/assets/rt2.pdf

image https://robopen.github.io/media/roboagent.pdf

image https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/

RT-2: Vision-Language-Action Models RoboAgent: Towards Sample Efficient Robot Manipulation with Semantic Augmentations and Action Chunking Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation LeRobot: State-of-the-art Machine Learning for real-world robotics

My Jobs

https://blog.naver.com/msshinok/80087056449

image

image