Transporter Networks: Rearranging the Visual World for Robotic Manipulation

論文リンク

一切のオブジェクトの仮定をしない、空間構造を保持したend-to-endのvision-based manipulationモデル

まず（１）どこからピックするかのlocal regionを決定し、（２）local regionと全体のdeep visual featureのマッチングでplaceする場所を探す。

Screen Shot 2022-01-03 at 14 24 31

・pick側

Screen Shot 2022-01-03 at 15 20 43

観測の中で最もpick確率の高い位置を取得

・place側 Screen Shot 2022-01-03 at 15 23 41

ピックした位置を中心とするクロップと画像全体のそれぞれの特徴マップで最もマッチする部分をplaceの位置とする