URL

https://arxiv.org/abs/2306.14846
Affiliations
- Dhruv Shah, N/A
- Ajay Sridhar, N/A
- Nitish Dashora, N/A
- Kyle Stachowicz, N/A
- Kevin Black, N/A
- Noriaki Hirose, N/A
- Sergey Levine, N/A
  Abstract
- General-purpose pre-trained models ("foundation models") have enabledpractitioners to produce generalizable solutions for individual machinelearning problems with datasets that are significantly smaller than thoserequired for learning from scratch. Such models are typically trained on largeand diverse datasets with weak supervision, consuming much more training datathan is available for any individual downstream application. In this paper, wedescribe the Visual Navigation Transformer (ViNT), a foundation model that aimsto bring the success of general-purpose pre-trained models to vision-basedrobotic navigation. ViNT is trained with a general goal-reaching objective thatcan be used with any navigation dataset, and employs a flexibleTransformer-based architecture to learn navigational affordances and enableefficient adaptation to a variety of downstream navigational tasks. ViNT istrained on a number of existing navigation datasets, comprising hundreds ofhours of robotic navigation from a variety of different robotic platforms, andexhibits positive transfer, outperforming specialist models trained on singulardatasets. ViNT can be augmented with diffusion-based subgoal proposals toexplore novel environments, and can solve kilometer-scale navigation problemswhen equipped with long-range heuristics. ViNT can also be adapted to noveltask specifications with a technique inspired by prompt-tuning, where the goalencoder is replaced by an encoding of another task modality (e.g., GPSwaypoints or routing commands) embedded into the same space of goal tokens.This flexibility and ability to accommodate a variety of downstream problemdomains establishes ViNT as an effective foundation model for mobile robotics.For videos, code, and model checkpoints, see our project page athttps://visualnav-transformer.github.io.
  Translation (by gpt-3.5-turbo)
汎用の事前学習モデル（「foundation models」）により、研究者はスクラッチから学習するために必要なデータセットよりもはるかに小さいデータセットで、個々の機械学習問題の汎用的な解決策を提供することができるようになりました。このようなモデルは通常、弱い教師付き学習を用いた大規模かつ多様なデータセットで訓練され、個々の下流アプリケーションに利用可能なトレーニングデータよりもはるかに多くのトレーニングデータを消費します。本論文では、ビジョンベースのロボットナビゲーションに汎用事前学習モデルの成功をもたらすVisual Navigation Transformer（ViNT）を提案します。ViNTは、任意のナビゲーションデータセットで使用できる一般的な目標到達目的で訓練され、柔軟なTransformerベースのアーキテクチャを使用してナビゲーションの特性を学習し、さまざまな下流のナビゲーションタスクに効率的に適応することができます。ViNTは、さまざまなロボットプラットフォームからの数百時間にわたるロボットナビゲーションを含む既存のナビゲーションデータセットで訓練され、単一のデータセットで訓練された専門モデルよりも良い転移学習の性能を示します。ViNTは拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索することができ、長距離ヒューリスティックを備えた場合にはキロメートルスケールのナビゲーション問題を解決することができます。また、ViNTは、プロンプトチューニングに触発された技術を用いて、目標エンコーダを別のタスクモダリティ（例：GPSウェイポイントやルーティングコマンド）のエンコーディングに置き換えることで、新しいタスク仕様に適応することができます。この柔軟性とさまざまな下流の問題領域への適応能力により、ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。ビデオ、コード、およびモデルのチェックポイントについては、https://visualnav-transformer.github.ioのプロジェクトページを参照してください。
Summary (by gpt-3.5-turbo)
本研究では、汎用事前学習モデルであるVisual Navigation Transformer（ViNT）を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。

AkihikoWatanabe / paper_notes

ViNT: A Foundation Model for Visual Navigation, Dhruv Shah+, N/A, arXiv'23 #802

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)