e4exp / paper_manager_abstract

0 stars 0 forks source link

DeepLab2: A TensorFlow Library for Deep Labeling #554

Open e4exp opened 3 years ago

e4exp commented 3 years ago

DeepLab2は、ディープラベリングのためのTensorFlowライブラリであり、コンピュータビジョンにおける一般的な高密度ピクセル予測問題のための、最先端かつ使いやすいTensorFlowコードベースを提供することを目的としている。 DeepLab2には、最近開発されたDeepLabモデルの亜種がすべて含まれており、事前学習済みのチェックポイントのほか、モデルの学習コードや評価コードも含まれているため、コミュニティで最先端のシステムを再現し、さらに改善することができます。 DeepLab2の有効性を示すために、Axial-WideRNetをネットワークバックボーンとして採用したPanoptic-DeepLabは、シングルスケールの推論とImageNet-1Kの事前学習済みチェックポイントのみで、Cityscaspes検証セットにおいて68.0%のPQと83.5%のmIoUを達成しました。 このライブラリを公開することで、今後の高密度ピクセルラベリングタスクの研究を促進し、この技術の新たな応用を想定することができると期待しています。 コードは url{this https URL} で公開されています。

https://github.com/google-research/deeplab2

e4exp commented 3 years ago

1. はじめに

ディープラベリングとは,ディープニューラルネットワークを用いて,画像や動画の各ピクセルに予測値を割り当てる(すなわち,各ピクセルにラベルを付ける)ことで,ある種のコンピュータビジョンの問題を解決することを指す[38, 44, 6]. 典型的な密な予測問題には,セマンティックセグメンテーション[26, 37, 19],インスタンスセグメンテーション[23, 42],パノプティックセグメンテーション[36, 48],深度推定[47, 21],ビデオパノプティックセグメンテーション[34, 70],深度を考慮したビデオパノプティックセグメンテーション[55]などがありますが,これらに限定されるものではありません. 2018年に発表した以前のオープンソースライブラリ1(最初のいくつかのDeepLabモデルバリアントで画像セマンティックセグメンテーションに取り組むことしかできなかった[6, 7, 8, 11])を超えて、一般的な高密度ピクセルラベリングタスクのための統一された使いやすいTensorFlowコードベースを提供することを目的とした、ディープラベリングのための最新のTensorFlowライブラリ[1]であるDeepLab2を紹介します。 TensorFlow2で再実装されたこのリリースには、最近開発されたDeepLabモデルのすべてのバリエーション[13, 67, 66, 70, 55]、モデルのトレーニングおよび評価コード、およびいくつかのプリトレーニングされたチェックポイントが含まれており、コミュニティが最先端のシステムを再現し、さらに改善することができます。 オープンソースのDeepLab2は、高密度ピクセルのラベリングタスクに関する今後の研究を促進し、この技術を採用した新しいブレークスルーや新しいアプリケーションを期待している。 以下のセクションでは、いくつかの一般的な緻密な予測タスクと、DeepLab2ライブラリで提供されている最先端のモデルについて詳しく説明します。