Open fulfulggg opened 5 hours ago
Stable Diffusionなどのテキスト画像生成モデルは、多様で高品質な画像生成能力を示していますが、手の描写に関しては驚くほど苦手で、しばしば解剖学的に不正確だったり、不気味の谷に陥ったりします。本論文では、こうした不自然な手の修正手法であるHandCraftを提案します。これは、パラメトリックモデルを用いて手のマスクと深度画像を自動的に生成し、拡散ベースの画像編集器によって手の解剖学的構造とポーズを修正しながら、元の画像のポーズ、色、スタイルを維持したままシームレスに統合することで実現します。このプラグアンドプレイ式の修復ソリューションは、既存の事前学習済み拡散モデルと互換性があり、微調整や追加学習を必要としないため、容易に導入できます。また、様々なスタイルで不自然な手が含まれる生成画像データセットMalHandを構築し、手検出器の学習と修復のベンチマークに活用しました。質的および量的評価を通じて、HandCraftは解剖学的正確さを回復するだけでなく、画像全体の整合性も維持することを実証します。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
問題: AI画像生成は手の描写が苦手で、指の数や形がおかしい画像がよく生成される。
解決策: HandCraftという手法を開発。AIが生成した不自然な手を、自然で解剖学的に正しい手に修正する。
仕組み:
メリット:
検証:
結果: HandCraftは、AI生成画像の手の不自然さを解消し、リアルな手の画像を生成できることを実証した。
タイトル: 拡散モデルで生成された画像における変形した手の解剖学的に正しい復元:HandCraft
リンク: https://arxiv.org/abs/2411.04332
概要:
Stable Diffusionなどのテキスト画像生成モデルは、多様で高品質な画像生成能力を示していますが、手の描写に関しては驚くほど苦手で、しばしば解剖学的に不正確だったり、不気味の谷に陥ったりします。本論文では、こうした不自然な手の修正手法であるHandCraftを提案します。これは、パラメトリックモデルを用いて手のマスクと深度画像を自動的に生成し、拡散ベースの画像編集器によって手の解剖学的構造とポーズを修正しながら、元の画像のポーズ、色、スタイルを維持したままシームレスに統合することで実現します。このプラグアンドプレイ式の修復ソリューションは、既存の事前学習済み拡散モデルと互換性があり、微調整や追加学習を必要としないため、容易に導入できます。また、様々なスタイルで不自然な手が含まれる生成画像データセットMalHandを構築し、手検出器の学習と修復のベンチマークに活用しました。質的および量的評価を通じて、HandCraftは解剖学的正確さを回復するだけでなく、画像全体の整合性も維持することを実証します。