PersonViT：人物再識別のための大規模自己教師ありビジョン・トランスフォーマー

タイトル: PersonViT：人物再識別のための大規模自己教師ありビジョン・トランスフォーマー

リンク: https://arxiv.org/abs/2408.05398

概要:

人物再識別（ReID）は、重複しないカメラ画像から関連する人物を検索することを目的としており、公共安全の分野で幅広い応用が期待されています。近年、Vision Transformer（ViT）と自己教師あり学習技術の発展により、自己教師あり事前学習に基づく人物再識別の性能は大幅に向上しました。人物再識別では、人体の識別に有効な局所的な微細特徴を抽出する必要がありますが、従来のViTは文脈に関連する大域的な特徴の抽出を得意としており、局所的な人体の特徴に焦点を当てることが困難でした。そこで本稿では、近年登場したMasked Image Modeling（MIM）自己教師あり学習手法を人物再識別に導入し、マスク画像モデリングと識別的な対照学習を組み合わせることで、大規模な教師なし事前学習を通じて高品質な大域的および局所的な特徴を効果的に抽出し、その後、人物再識別タスクにおいて教師ありのファインチューニングを行います。このマスク画像モデリングを用いたViTに基づく人物特徴抽出法（PersonViT）は、教師なし、スケーラブル、汎化能力が高いという優れた特性を備えており、教師あり人物再識別におけるアノテーションの困難さを克服し、MSMT17、Market1501、DukeMTMC-reID、Occluded-Dukeなどの公開されているベンチマークデータセットにおいて最先端の結果を達成しました。PersonViTメソッドのコードと事前学習済みモデルは、https://github.com/hustvl/PersonViT にて公開しており、人物再識別分野のさらなる研究を促進します。

fulfulggg / Information-gathering

PersonViT：人物再識別のための大規模自己教師ありビジョン・トランスフォーマー #53

タイトル: PersonViT：人物再識別のための大規模自己教師ありビジョン・トランスフォーマー

リンク: https://arxiv.org/abs/2408.05398

概要: