Open yang19527 opened 4 months ago
首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。
你好,可以详细阐述下weight是怎么得到或者定义的么,是否根据hand score有关呢
首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。
首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。
请问这部分内容,在目前公开的代码中有体现吗
首先从dwpose结果得到高置信度手部框的Mask,然后把这个Mask下采样到latent的大小。对于Mask区域使用不同的weight,乘在mean之前的loss上。
mask直接从原图大小等比例下采样到vae latent大小吗,vae latent是否和原图具有空间位置上的一致性呢
作者你好,你在 Hand region enhancement 章节中写到你们实现了一种基于置信度阈值生成掩码的掩码策略,该方法是如何“在计算视频扩散模型的损失时,将未被遮挡区域对应的损失值按一定比例放大,使其比其他被遮挡区域对模型训练的影响更大”的呢?能不能指导一下么?