changh95 / blog_comments

0 stars 0 forks source link

20201227-cvpr2020-slam-malisiewicz/ #2

Open utterances-bot opened 3 years ago

utterances-bot commented 3 years ago

CVPR 2020 - SLAM 워크샵 Deep Visual SLAM Frontends - SuperPoint, SuperGlue and SuperMaps 발표 노트 (Tomasz Malisiewicz 발표) | cv-learn

CVPR 2020 학회에서 Joint Workshop on Long-Term Visual Localization, Visual Odometry and Geometric and Learning-based SLAM 워크샵 중 Tomasz Malisiewicz께서 발표해주신 Deep Visual SLAM Frontends - SuperPoint, SuperGlu

https://changh95.github.io/20201227-cvpr2020-slam-malisiewicz/

changh95 commented 3 years ago

저자입니다. SuperGlue쪽에서 optimal transport, sinkhorn 알고리즘 등 아직 이해가 부족한 것 같습니다 :( 혹시 도움이 될 수 있는 자료가 있다면 추천 부탁드립니다...! 감사합니다 :)

tmdrn9 commented 1 year ago

안녕하세요. superglue에 대해서 공부하고있는 사람입니다. 우선 포스팅 내용 너무 잘 봤습니다. 정말 도움됐습니다. 한가지 질문이 있습니다. graph neural network부분의 경우, input형태가 graph가 아닌 local features의 descriptor와 position에 해당하는 벡터?를 MLP연산한 것인데 graph neural network 라고 하는 이유는 단지 message passing 알고리즘을 써서 일가요?? 논문을 다 읽어봐도 의문이 들어 여쭤봅니다!

changh95 commented 1 year ago

@tmdrn9 Local feature 끼리 매칭을 할 때는 position 정보도 중요하고 descriptor 정보도 중요합니다. Position 정보는 geometry에 대한 정보를 담고 있고, descriptor 정보는 appearance에 대한 정보를 담고 있는데, 둘 다 매칭에서 아주 중요한 역할을 하기 때문입니다. 하지만 이 둘의 형태가 굉장히 다르기 때문에, 이 둘을 섞어 하나의 representation으로 표현하기 위해 MLP를 이용해서 'keypoint encoding'을 한 것으로 보입니다.

위와 같은 과정을 통해 local feature를 하나의 representation으로 표현할 수 있게 되었고, 이제 매칭에 대한 부분을 학습하기 위해 GNN이 (graph neural network) 사용되었다고 볼 수 있습니다. 매칭을 위한 representation을 self-attention과 cross-attention 기법을 사용해서 edge를 만들었고, 이를 통해 전체 representation이 graph로 표현되었으며 이 representation을 업데이트 하기 때문에 GNN이라고 생각됩니다. Message passing 방식은 GNN을 업데이트하는 하나의 방법이지만, 이 알고리즘을 사용했기 때문에 GNN이 된 것은 아니라고 생각합니다 ㅎㅎ