Open fulfulggg opened 4 hours ago
チューニングフリーの個人向け画像生成手法は、複数の人物が登場する場合でも、顔の一貫性、すなわち同一性を維持することに大きな成功を収めてきました。しかし、複数の人物が登場するシーンでの全体的な一貫性の欠如は、これらの手法が一連の画像を通じて一貫した物語を創造する能力を阻害しています。そこで本稿では、顔の一貫性だけでなく、服装、髪型、体格の一貫性も維持することで、一連の画像によるストーリーの作成を容易にする個人向けソリューション「StoryMaker」を提案します。StoryMakerは、顔の同一性と、服装、髪型、体格を含む人物の切り抜き画像に基づく条件を組み込んでいます。具体的には、Positional-aware Perceiver Resampler (PPR) を用いて、顔の同一性情報と人物の切り抜き画像を統合することで、それぞれの人物の特徴を明確に取得します。複数の人物と背景の混在を防ぐために、セグメンテーションマスクを用いたMSE損失を用いて、それぞれの人物と背景のクロスアテンションの影響を受ける領域を個別に制限します。さらに、ポーズからの分離を促進するために、ポーズを条件とした生成ネットワークの学習を行います。また、忠実度と品質を向上させるために、LoRAも採用しています。実験により、私たちのアプローチの有効性が確認されました。StoryMakerは、多数のアプリケーションをサポートし、他の社会的プラグインとも互換性があります。ソースコードとモデルの重みは、https://github.com/RedAIGC/StoryMaker で公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
StoryMakerは、漫画、アニメ、ゲームなどのコンテンツ制作において、従来の手作業による制作プロセスを大幅に効率化できる可能性を秘めています。
タイトル: StoryMaker:テキスト画像生成における包括的で一貫性のあるキャラクターの構築に向けて
リンク: https://arxiv.org/abs/2409.12576
概要:
チューニングフリーの個人向け画像生成手法は、複数の人物が登場する場合でも、顔の一貫性、すなわち同一性を維持することに大きな成功を収めてきました。しかし、複数の人物が登場するシーンでの全体的な一貫性の欠如は、これらの手法が一連の画像を通じて一貫した物語を創造する能力を阻害しています。そこで本稿では、顔の一貫性だけでなく、服装、髪型、体格の一貫性も維持することで、一連の画像によるストーリーの作成を容易にする個人向けソリューション「StoryMaker」を提案します。StoryMakerは、顔の同一性と、服装、髪型、体格を含む人物の切り抜き画像に基づく条件を組み込んでいます。具体的には、Positional-aware Perceiver Resampler (PPR) を用いて、顔の同一性情報と人物の切り抜き画像を統合することで、それぞれの人物の特徴を明確に取得します。複数の人物と背景の混在を防ぐために、セグメンテーションマスクを用いたMSE損失を用いて、それぞれの人物と背景のクロスアテンションの影響を受ける領域を個別に制限します。さらに、ポーズからの分離を促進するために、ポーズを条件とした生成ネットワークの学習を行います。また、忠実度と品質を向上させるために、LoRAも採用しています。実験により、私たちのアプローチの有効性が確認されました。StoryMakerは、多数のアプリケーションをサポートし、他の社会的プラグインとも互換性があります。ソースコードとモデルの重みは、https://github.com/RedAIGC/StoryMaker で公開されています。