关于 Hand region enhancement 方法的疑惑

Tencent / MimicMotion

High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

https://tencent.github.io/MimicMotion/

Other

1.95k stars 166 forks source link

Open yang19527 opened 4 months ago

yang19527 commented 4 months ago

作者你好，你在 Hand region enhancement 章节中写到你们实现了一种基于置信度阈值生成掩码的掩码策略，该方法是如何“在计算视频扩散模型的损失时，将未被遮挡区域对应的损失值按一定比例放大，使其比其他被遮挡区域对模型训练的影响更大”的呢？能不能指导一下么？

zyayoung commented 4 months ago

首先从dwpose结果得到高置信度手部框的Mask，然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight，乘在mean之前的loss上。

wangxr1999 commented 4 months ago

你好，可以详细阐述下weight是怎么得到或者定义的么，是否根据hand score有关呢

首先从dwpose结果得到高置信度手部框的Mask，然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight，乘在mean之前的loss上。

wangsiqi777 commented 4 months ago

首先从dwpose结果得到高置信度手部框的Mask，然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight，乘在mean之前的loss上。

请问这部分内容，在目前公开的代码中有体现吗

umnooob commented 1 month ago

首先从dwpose结果得到高置信度手部框的Mask，然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight，乘在mean之前的loss上。

mask直接从原图大小等比例下采样到vae latent大小吗，vae latent是否和原图具有空间位置上的一致性呢