Open fulfulggg opened 1 month ago
目的: 単眼画像 (1つのカメラで撮影した画像) から奥行きを推定する技術の向上。
課題: 高品質なデータセット不足のため、従来の拡散モデルでは詳細な意味情報を捉えにくい。
提案手法 (EDADepth): 追加学習データなしで、単眼深度推定を行うための新しいデータ拡張手法。
結果:
新規性: 単眼深度推定のための拡散ベースのパイプラインに、Swin2SR、BEiTモデル、BLIP-2トークナイザーを導入した点。
一言でまとめると: EDADepthは、画像の質向上と詳細な意味情報抽出を通じて、単眼深度推定の精度を大幅に向上させる新しい手法である。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: EDADepth:単眼深度推定のための強化データ拡張手法
リンク: https://arxiv.org/abs/2409.06183
概要:
拡散モデルは、テキストから画像を生成する機能により、最近では深度推定などの視覚認識タスクで注目されています。しかし、高品質なデータセットの不足は、拡散モデルが詳細な意味的コンテキストを抽出することを困難にしています。詳細に欠ける意味的コンテキストは、拡散モデルへの入力として使用される効果的なテキスト埋め込みの作成プロセスをさらに悪化させます。本稿では、追加の学習データを使用せずに単眼深度を推定する、強化されたデータ拡張手法である、新しいEDADepthを提案します。入力画像の品質を向上させるために、超解像モデルであるSwin2SRを使用します。テキスト埋め込みをより適切に抽出するために、BEiT事前学習済みセマンティックセグメンテーションモデルを採用しています。これらのテキスト埋め込みからトークンを生成するために、BLIP-2トークナイザーを導入します。私たちのアプローチの新規性は、単眼深度推定のための拡散ベースのパイプラインにSwin2SR、BEiTモデル、BLIP-2トークナイザーを導入したことです。私たちのモデルは、NYUv2およびKITTIデータセットの{\delta}3メトリックで最先端の結果(SOTA)を達成しました。また、RMSEおよびRELメトリックにおいても、SOTAモデルに匹敵する結果を達成しています。最後に、最先端の拡散ベースの単眼深度推定モデルと比較して、推定された深度の視覚化が改善されたことも示します。コード:https://github.com/edadepthmde/EDADepth_ICMLA.