Tencent / MimicMotion

High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance
https://tencent.github.io/MimicMotion/
Other
1.95k stars 166 forks source link

关于 Hand region enhancement 方法的疑惑 #42

Open yang19527 opened 4 months ago

yang19527 commented 4 months ago

作者你好,你在 Hand region enhancement 章节中写到你们实现了一种基于置信度阈值生成掩码的掩码策略,该方法是如何“在计算视频扩散模型的损失时,将未被遮挡区域对应的损失值按一定比例放大,使其比其他被遮挡区域对模型训练的影响更大”的呢?能不能指导一下么?

zyayoung commented 4 months ago

首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。

wangxr1999 commented 4 months ago

你好,可以详细阐述下weight是怎么得到或者定义的么,是否根据hand score有关呢

首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。

wangsiqi777 commented 4 months ago

首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。

请问这部分内容,在目前公开的代码中有体现吗

umnooob commented 1 month ago

首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。

mask直接从原图大小等比例下采样到vae latent大小吗,vae latent是否和原图具有空间位置上的一致性呢