StoryMaker：テキスト画像生成における包括的で一貫性のあるキャラクターの構築に向けて

fulfulggg commented 4 hours ago

タイトル: StoryMaker：テキスト画像生成における包括的で一貫性のあるキャラクターの構築に向けて

リンク: https://arxiv.org/abs/2409.12576

概要:

チューニングフリーの個人向け画像生成手法は、複数の人物が登場する場合でも、顔の一貫性、すなわち同一性を維持することに大きな成功を収めてきました。しかし、複数の人物が登場するシーンでの全体的な一貫性の欠如は、これらの手法が一連の画像を通じて一貫した物語を創造する能力を阻害しています。そこで本稿では、顔の一貫性だけでなく、服装、髪型、体格の一貫性も維持することで、一連の画像によるストーリーの作成を容易にする個人向けソリューション「StoryMaker」を提案します。StoryMakerは、顔の同一性と、服装、髪型、体格を含む人物の切り抜き画像に基づく条件を組み込んでいます。具体的には、Positional-aware Perceiver Resampler (PPR) を用いて、顔の同一性情報と人物の切り抜き画像を統合することで、それぞれの人物の特徴を明確に取得します。複数の人物と背景の混在を防ぐために、セグメンテーションマスクを用いたMSE損失を用いて、それぞれの人物と背景のクロスアテンションの影響を受ける領域を個別に制限します。さらに、ポーズからの分離を促進するために、ポーズを条件とした生成ネットワークの学習を行います。また、忠実度と品質を向上させるために、LoRAも採用しています。実験により、私たちのアプローチの有効性が確認されました。StoryMakerは、多数のアプリケーションをサポートし、他の社会的プラグインとも互換性があります。ソースコードとモデルの重みは、https://github.com/RedAIGC/StoryMaker で公開されています。

fulfulggg commented 4 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

text-to-image
image-generation
few-shot-learning

fulfulggg commented 4 hours ago

論文要約

StoryMaker：テキストから画像を生成し、一貫性のあるキャラクターで物語を紡ぐ技術

近年のAI技術の進歩により、テキストから高画質な画像を生成することが可能になりました。しかし、複数の人物が登場するストーリーを画像で表現する場合、キャラクターの服装や髪型が画像ごとにバラバラになってしまうという問題がありました。
StoryMakerは、顔だけでなく、服装、髪型、体格といったキャラクターの特徴を画像全体で統一することで、より自然で一貫性のあるストーリーを表現することを可能にする技術です。

StoryMakerの仕組み:

顔認識と人物切り抜き: 入力されたテキストから、登場する人物の顔と服装、髪型、体格などの情報を抽出します。
特徴の統合: PPR(Positional-aware Perceiver Resampler)を用いて、顔情報と人物の切り抜き画像を統合し、各キャラクターの特徴を明確に把握します。
個別の領域制限: セグメンテーションマスクとMSE損失を用いることで、人物と背景が混ざらないように、それぞれに影響を与える領域を制限します。
ポーズの分離: ポーズを条件とした生成ネットワークを学習させることで、ポーズと人物の特徴を分離し、より自由度の高い画像生成を実現します。
画質の向上: LoRA (Low-Rank Adaptation) を採用することで、生成される画像の忠実度と品質を向上させています。

StoryMakerの利点:

顔だけでなく、服装、髪型、体格も一貫したキャラクターを生成できるため、より自然で説得力のあるストーリーを表現できます。
他の画像生成AI技術と組み合わせることも可能です。

StoryMakerは、漫画、アニメ、ゲームなどのコンテンツ制作において、従来の手作業による制作プロセスを大幅に効率化できる可能性を秘めています。

fulfulggg / Information-gathering