EDADepth：単眼深度推定のための強化データ拡張手法

fulfulggg commented 2 months ago

タイトル: EDADepth：単眼深度推定のための強化データ拡張手法

リンク: https://arxiv.org/abs/2409.06183

概要:

拡散モデルは、テキストから画像を生成する機能により、最近では深度推定などの視覚認識タスクで注目されています。しかし、高品質なデータセットの不足は、拡散モデルが詳細な意味的コンテキストを抽出することを困難にしています。詳細に欠ける意味的コンテキストは、拡散モデルへの入力として使用される効果的なテキスト埋め込みの作成プロセスをさらに悪化させます。本稿では、追加の学習データを使用せずに単眼深度を推定する、強化されたデータ拡張手法である、新しいEDADepthを提案します。入力画像の品質を向上させるために、超解像モデルであるSwin2SRを使用します。テキスト埋め込みをより適切に抽出するために、BEiT事前学習済みセマンティックセグメンテーションモデルを採用しています。これらのテキスト埋め込みからトークンを生成するために、BLIP-2トークナイザーを導入します。私たちのアプローチの新規性は、単眼深度推定のための拡散ベースのパイプラインにSwin2SR、BEiTモデル、BLIP-2トークナイザーを導入したことです。私たちのモデルは、NYUv2およびKITTIデータセットの{\delta}3メトリックで最先端の結果（SOTA）を達成しました。また、RMSEおよびRELメトリックにおいても、SOTAモデルに匹敵する結果を達成しています。最後に、最先端の拡散ベースの単眼深度推定モデルと比較して、推定された深度の視覚化が改善されたことも示します。コード：https://github.com/edadepthmde/EDADepth_ICMLA.

fulfulggg commented 2 months ago

論文要約