Open fulfulggg opened 1 month ago
拡散トランスフォーマーにおけるグローバル自己注意機構は、視覚情報の疎性と冗長性により、冗長な計算を伴います。また、空間ウィンドウ内のトークンのアテンションマップは、非常に類似していることが分かります。この冗長性に対処するため、本研究では、疎な代表トークン注意(代表トークンの数がトークン総数よりもはるかに少ない)を用いて、グローバルな視覚情報を効率的にモデル化する、プロキシトークン拡散トランスフォーマー(PT-DiT)を提案します。具体的には、各トランスフォーマーブロックにおいて、各時空間ウィンドウからランダムに1つのトークンをサンプリングし、その領域のプロキシトークンとします。グローバルなセマンティクスは、これらのプロキシトークンの自己注意によって捉えられ、クロスアテンションを介してすべての潜在トークンに注入されます。同時に、疎な注意機構によって引き起こされる詳細モデリングの制限に対処するために、ウィンドウおよびシフトウィンドウ注意を導入します。適切に設計されたPT-DiTに基づいて、T2I、T2V、T2MVタスク用のさまざまなモデルを含むQihoo-T2Xファミリーをさらに開発します。実験の結果、PT-DiTは、画像生成タスクとビデオ生成タスクの両方において、計算の複雑さを軽減しながら(DiTと比較して48%、Pixart-alphaと比較して35%の削減)、競争力のあるパフォーマンスを実現することが示されました。ソースコードはhttps://github.com/360CVGroup/Qihoo-T2Xで公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: Qihoo-T2X: プロキシトークンを用いた効率重視型拡散トランスフォーマーによるテキストからあらゆるタスクへの変換
リンク: https://arxiv.org/abs/2409.04005
概要:
拡散トランスフォーマーにおけるグローバル自己注意機構は、視覚情報の疎性と冗長性により、冗長な計算を伴います。また、空間ウィンドウ内のトークンのアテンションマップは、非常に類似していることが分かります。この冗長性に対処するため、本研究では、疎な代表トークン注意(代表トークンの数がトークン総数よりもはるかに少ない)を用いて、グローバルな視覚情報を効率的にモデル化する、プロキシトークン拡散トランスフォーマー(PT-DiT)を提案します。具体的には、各トランスフォーマーブロックにおいて、各時空間ウィンドウからランダムに1つのトークンをサンプリングし、その領域のプロキシトークンとします。グローバルなセマンティクスは、これらのプロキシトークンの自己注意によって捉えられ、クロスアテンションを介してすべての潜在トークンに注入されます。同時に、疎な注意機構によって引き起こされる詳細モデリングの制限に対処するために、ウィンドウおよびシフトウィンドウ注意を導入します。適切に設計されたPT-DiTに基づいて、T2I、T2V、T2MVタスク用のさまざまなモデルを含むQihoo-T2Xファミリーをさらに開発します。実験の結果、PT-DiTは、画像生成タスクとビデオ生成タスクの両方において、計算の複雑さを軽減しながら(DiTと比較して48%、Pixart-alphaと比較して35%の削減)、競争力のあるパフォーマンスを実現することが示されました。ソースコードはhttps://github.com/360CVGroup/Qihoo-T2Xで公開されています。