Open changh95 opened 1 month ago
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
Mesh Reconstruction이란?
Mesh Anything 파이프라인 설명
주요 포인트 • MeshAnything은 주어진 3D 형태에 맞는 아티스트가 만든 메쉬를 생성하는 autoregressive 트랜스포머입니다 • 주어진 3D 자산에서 포인트 클라우드를 샘플링하여 특징으로 인코딩한 후, 디코더 전용 트랜스포머에 주입하여 형태 조건 메쉬 생성을 달성합니다. • MeshGPT와 달리 복잡한 3D 형태 분포를 직접 학습하지 않고, 최적화된 토폴로지를 통해 효율적으로 형태를 구성하여 훈련 부담을 줄이고 확장성을 향상시킵니다.
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models
4D 애니메이션 생성
https://github.com/user-attachments/assets/f6e2490d-d75d-450b-8aa7-8733a6ee2a40
아키텍쳐 주요 포인트 • 큐레이팅된 데이터셋을 사용하여 대량의 동적 3D 자산 궤도 비디오를 생성하고, 이를 통해 4D 인식 비디오 확산 모델을 훈련 • 기존 단안 비디오 생성 모델의 3D 기하학적 사전 지식이 부족하여, 최신 3D 인식 비디오 생성 모델을 사용 • 사전 훈련된 3D 인식 비디오 확산 모델을 4D 인식 궤도 비디오 생성 작업에 맞게 미세조정 • 운동 크기 가이던스를 명시하고, 3D-4D 동역학을 훈련 단계에서 학습하며, 추론 단계에서 3D 객체 동역학을 증강 • 큐레이팅된 데이터셋을 효과적으로 활용하고, 다양한 조건 모달리티를 수용하도록 모델 아키텍처를 커스터마이징 진행
4D 디퓨전 아키텍쳐
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
https://github.com/user-attachments/assets/78989df3-f31d-4c8a-be82-bde2fac7f444
테이크아웃
• 상황에 맞는 AI와 실시간 정보 접근이 가능한 디스플레이를 결합한 세련되고 가벼운 AR 안경
• 시스템은 물리적 환경의 3D 레이아웃을 이해해야 함
• AR 안경은 디지털 오버레이와 물리적 공간을 혼합, 턴 바이 턴 방향 제공 가능
• 3D 장면 표현 생성은 복잡한 작업
• 현재 MR 헤드셋은 원시 시각 데이터를 기반으로 가상 표현 생성
• 원시 데이터를 환경의 특징을 설명하는 모양으로 변환
• 기존 방식은 독특하거나 불규칙한 공간에서 오류 발생 가능
소개
• SceneScript는 하드 코딩된 규칙 대신 엔드 투 엔드 기계 학습 사용
• 방의 기하학을 직접 추론
• 컴팩트한 물리적 장면 표현으로 메모리 요구 사항 감소
• 선명한 지오메트리 생성, 해석 가능하고 편집 가능
학습 방법
• SceneScript는 LLM의 다음 토큰 예측 개념 활용
• 일반 언어 토큰 대신 ‘벽’, ‘문’ 등의 아키텍처 토큰 예측
• 많은 양의 훈련 데이터 제공으로 시각적 데이터를 장면의 기본 표현으로 인코딩 학습
• 방 레이아웃 설명하는 언어로 디코딩
• 상당한 양의 데이터와 사생활 보호 필요
시뮬레이션에서 훈련
• 웹에서 공개된 텍스트 소스가 아닌 물리적 공간 데이터 필요
• Aria Synthetic Environments라는 합성 데이터 세트 생성
• 100,000개의 독특한 내부 환경, SceneScript 언어로 설명
• 각 장면을 걷는 시뮬레이션된 비디오와 짝을 이룸
• Project Aria 안경의 센서 특성 사용, 시뮬레이션에서 훈련
• 실제 환경으로 일반화할 수 있는 모델 검증
( pilippeshin )
https://robotics-transformer2.github.io/assets/rt2.pdf
https://robopen.github.io/media/roboagent.pdf
https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/
RT-2: Vision-Language-Action Models RoboAgent: Towards Sample Efficient Robot Manipulation with Semantic Augmentations and Action Chunking Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation LeRobot: State-of-the-art Machine Learning for real-world robotics
Interesting papers
카메라 포즈 찾기의 전쟁?
facade.webm
NeRF & Gaussian Splatting
Open-set 3D detection
Conference tutorials
Other
https://github.com/user-attachments/assets/0524d916-1e87-42cc-9e04-bd96c2e7b436
https://github.com/user-attachments/assets/96ea317d-e155-4c7b-a87c-8bb1440011c4
1 에서 소개한 GLIM에서 사용
Job postings