Open e4exp opened 3 years ago
本研究では,高密度予測タスクに視覚変換を効果的に利用するニューラルネットワークアーキテクチャであるDPT(dense prediction transformer)を導入した. 単眼の深度推定とセマンティックセグメンテーションの実験では、完全畳み込み型のアーキテクチャと比較して、DPTはよりきめ細かく、大域的に一貫した予測を行うことがわかった。 トランスフォーマーに関する先行研究と同様に、DPTは大規模なデータセットで学習することで、その潜在能力を最大限に発揮します。
密な予測タスクのバックボーンとして、畳み込みネットワークの代わりに視覚変換器を活用するアーキテクチャである「密な視覚変換器」を紹介します。 視覚変換器の様々な段階で得られたトークンを様々な解像度の画像のような表現に組み立て、畳み込みデコーダを用いてフル解像度の予測に段階的に結合します。 変換器のバックボーンは、一定の比較的高い解像度で表現を処理し、すべての段階でグローバルな受容野を持っています。 これらの特性により、この高密度ビジョン変換器は、完全な畳み込みネットワークと比較して、よりきめ細かく、よりグローバルに一貫した予測を行うことができます。 我々の実験によると、このアーキテクチャは、特に大量の学習データが利用可能な場合、密な予測タスクにおいて大幅な改善をもたらす。 単眼の深度推定では,最先端の完全畳み込みネットワークと比較して,相対的な性能が最大で28%向上したことが確認された. また、セマンティックセグメンテーションに適用したところ、密度の高いビジョン変換は、ADE20Kにおいて49.02%のmIoUを達成し、新たな技術水準を確立しました。 さらに、NYUv2、KITTI、Pascal Contextなどの小規模なデータセットにおいても、アーキテクチャの微調整が可能であることを示しており、これらのデータセットにおいても新たな技術水準を確立しています。 我々のモデルはこのhttpsのURLから入手可能です。 https://github.com/intel-isl/DPT