AtsukiOsanai / cv_survey

Personal repository for computer vision survey
2 stars 0 forks source link

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer #87

Closed AtsukiOsanai closed 1 year ago

AtsukiOsanai commented 1 year ago

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

Information

Summary

サマリ図表

スクリーンショット 2022-12-22 16 55 33

どんな論文か?

Background画像の要素と干渉しないように、複数のforegroundテキスト・画像要素を配置する手法の提案。アーキテクチャとしてはDETRに近く、object query embeddingの代わりにforegroundテキスト・画像の埋め込みを使用する(つまりここでのqueryはforegroundテキスト・画像要素)。埋め込み表現はLayout VAE+『文字列、テキスト長、属性(header, bodyなど)』のEncoding結果を使用。クオリティの高いレイアウト生成のために細かく設計されたGAN、VAEのLossに加え、queryレベルのbbox推定をobjectiveにしたのがキモ。ベースラインに対してLayout FID/Image FIDともに高いスコアをマーク。

新規性

結果

スクリーンショット 2022-12-22 16 54 16 スクリーンショット 2022-12-22 16 54 28

その他(なぜ通ったか?など)

AtsukiOsanai commented 1 year ago