Closed AtsukiOsanai closed 1 year ago
Background画像の要素と干渉しないように、複数のforegroundテキスト・画像要素を配置する手法の提案。アーキテクチャとしてはDETRに近く、object query embeddingの代わりにforegroundテキスト・画像の埋め込みを使用する(つまりここでのqueryはforegroundテキスト・画像要素)。埋め込み表現はLayout VAE+『文字列、テキスト長、属性(header, bodyなど)』のEncoding結果を使用。クオリティの高いレイアウト生成のために細かく設計されたGAN、VAEのLossに加え、queryレベルのbbox推定をobjectiveにしたのがキモ。ベースラインに対してLayout FID/Image FIDともに高いスコアをマーク。
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer
Information
Summary
サマリ図表
どんな論文か?
Background画像の要素と干渉しないように、複数のforegroundテキスト・画像要素を配置する手法の提案。アーキテクチャとしてはDETRに近く、object query embeddingの代わりにforegroundテキスト・画像の埋め込みを使用する(つまりここでのqueryはforegroundテキスト・画像要素)。埋め込み表現はLayout VAE+『文字列、テキスト長、属性(header, bodyなど)』のEncoding結果を使用。クオリティの高いレイアウト生成のために細かく設計されたGAN、VAEのLossに加え、queryレベルのbbox推定をobjectiveにしたのがキモ。ベースラインに対してLayout FID/Image FIDともに高いスコアをマーク。
新規性
結果
その他(なぜ通ったか?など)