Open Sosuke115 opened 2 years ago
https://arxiv.org/abs/2109.12098
https://www.slideshare.net/DeepLearningJP2016/dlcliport-what-and-where-pathways-for-robotic-manipulation-corl-2021
https://github.com/cliport/cliport/tree/2b93a0f87ba24ce5c26f41e8a4e0a22b4ff34f9d
言語条件付きvision-based manipulation手法、CLIPORTを提案。
従来のmanipulation手法は新しいタスクへの汎化やタスク間で転移できる概念をうまく活用できていない 一方で近年CVとNLPでは表現学習が盛んだが空間的理解に欠ける -> 両者を組み合わせ、semantic(イメージキャプションデータで画像と文を近づけるような学習を行ってある事前学習モデルCLIP)とspatial(Transporter)のpathwayを持つvision-based manipulatinモデルを作成
上図のようにCLIPのResNetとSentence encoder機構でTransporterを拡張し、入力データとして言語指令文も受け付けるようにする。
論文リンク
https://arxiv.org/abs/2109.12098
日本語スライド
https://www.slideshare.net/DeepLearningJP2016/dlcliport-what-and-where-pathways-for-robotic-manipulation-corl-2021
コード
https://github.com/cliport/cliport/tree/2b93a0f87ba24ce5c26f41e8a4e0a22b4ff34f9d
概要
言語条件付きvision-based manipulation手法、CLIPORTを提案。
従来のmanipulation手法は新しいタスクへの汎化やタスク間で転移できる概念をうまく活用できていない 一方で近年CVとNLPでは表現学習が盛んだが空間的理解に欠ける -> 両者を組み合わせ、semantic(イメージキャプションデータで画像と文を近づけるような学習を行ってある事前学習モデルCLIP)とspatial(Transporter)のpathwayを持つvision-based manipulatinモデルを作成
上図のようにCLIPのResNetとSentence encoder機構でTransporterを拡張し、入力データとして言語指令文も受け付けるようにする。
思ったこと