HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network

official repo: https://github.com/namepllet/HandOccNet

Introduction

Occlusion을 해결하기 위해 attention-based methods가 많이 사용
- 단점1. 주로 2D body joints에 이용되던 방법이라 더 복잡한 hand에 적합하지 않음
- 단점2. 대부분의 손이 가려진 경우와 같이 심각한 occulsion에 대해서 attention이 집중해야할 공간을 찾지 못함
논문은 이러한 장점을 해소하는 방식으로 전개 됌
- 요소1. Injection mechanism
- Occulsion을 무시하는 convolution의 단점을 해소할 수 있음
- 더 풍성한 표현력을 얻기 위해 convolution에서 추출하는 features를 이차적으로 사용함
- primary features는 injection을 통해 secondary features의 정보를 leverage함
- 요소2. Transformer modules
- 공간적 거리감을 극복하기 위해 transformer 사용
- Feature injecting transformer (FIT) and self-enhancing transformer (SET)
- FIT는 위에서 기술한 leverage 역할; 아래의 두가지 standard transformer와 차별점을 가짐
  - Queries와 keys의 correlation을 구하기 위해서 sigmoid와 softmax 기반의 attention modules을 모두 사용함
  - Input queries와 attention module의 output에 residual을 삽입함
- FIT는 queries, keys쌍의 계산된 상관관계와 FIT의 feature가 아무런 정보가 없을때 queries를 이용한다는 의도
  
  Feature injecting transformer (FIT)의 효과에 대한 부연 설명 산술적으로 바람직하지 않게 높아지는 query과 key의 곱의 연산을 결과들을 softmax로 normalize시켜서 high correlation scores을 방지

HandOccNet

Backbone - Feature injecting transformer (FIT) - Self-Enhancing transformer (SET) - Regressor

Backbone

Input: 512x512x3
ResNet-based FPN(Learning to estimate robust 3D human mesh from in-the-wild crowded scenes)
Output: 32x32x256 = feature map, F
Necessity map, M = sigmoid(convs * F)
- 사물이나배경처럼 불필요한 정보들에 의해 야기되는 공간적으로 변화하는 중요도를 표현
Primary feature: Fp = F(x)M
- 손과 관련된 지역에 대한 정보
Secondary feature: Fs = F(x)(1-M)
- Occluded 영역에 대한 정보
  Feature injecting transformer (FIT)
  
  softmax-based attention module - sigmoid-based attention module
Transformer-based module
Input: Fs, Fp(32x32x256)
Output: F_fit(32x32x256)

Softmax-based attention module

Fs로부터 Fp와 가장 관련이 있는 정보를 추출함. Occlusion을 야기하는 특정 정보는 이 모듈을 통해서 Fs와 Fp의 강한 상관관계를 표현할 수 있음.

q_soft = 1x1conv*Fs(1024x256)
k_soft = 1x1conv*Fp(1024x256)
input of softmax = C_soft = ( q_soft x k_soft.T ) / sqrt(d_k_soft)
- d_k_soft = 256, k_soft의 차원
- q_soft와 k_soft가 정보의 관계를 설명함.
- 이 말은 Fs의 부족한 정보를 채우기 위해 이용할 Fp를 찾는 것과 동일
하지만 모든 key(from Fp)가 특정한 query와 전혀 연관이 없을때 상관관계를 다루기에 대한적임
- 예를 들어 Figure 4.의 두번째 행에서 설명한 바와 같이 배경 이미지에 대해서 쿼리를 할 경우 multiplication 결과가 너무 soften 되거 있을 수 있음.
- 이러한 단점에도 softmax가 상대적인 값으로써 query와 key에 대한 정보를 설명할 수 있기 때문에 계속 사용해야 함

Sigmoid-based attention module

Figure (g)와 같이 상대적으로 맵핑된 값으로 인해 불필요하게 커져버린 correlation을 걸러주는 모듈이 필요하여 sigmoid-based attention module을 사용

q_sig = 1x1conv*Fp(1024x256)
k_sig = 1x1conv*Fs(1024x256)
input of sigmoid = C_sig = pool( ( q_sig x k_sig.T ) / sqrt(d_k_sig) )
- pool: average pooling
- d_k_sig = 256, k_sig의 차원
Softmax와는 다르게 sigmoid는 input으로 들어온 하나의 값에 대해서 확률 맵핑을 수행함.
따라서 sigmoid는 작은 수의 곱 연산으로 결과로부터 적은 attension score를 만들면서 undesired high correlation을 겪지 않아도 됌
Final coreelation map C = C_soft (x) C_sig (1024x1024)

Feature injection

query 정보를 residual connection과 함께 output 단계에서 사용한 기존의 transformer와는 달리, query 정보는 사라지고 값들의 정보는 비어진 곳으로 투입되기 때문에 injection라는 용어를 사용.

위의 그림처럼 고전적인 transformer는 q,k,v를 입력으로 하는 multi-head에서 나오는 출력과 residual을 사용하지만 이와 달리 HandOccNet은 primary feature의 value만 사용

v = 1x1conv*Fp(1024x256)
Residual feature: R_fit = C_v = CXv (1024x256)
F_fit = F_p + R_fit.reshape + MLP(LN(R_fit))).reshape
- reshape: 32x32x256 차원으로 맵핑

Self-Enhancing transformer (SET)

F_fit에 self-attention module을 태움. Figrue 5. 참조. 모든 특징은 전형적인 self-attention의 특징을 따라 모든 key와 query가 적어도 스스로와 한번은 연관성을 갖게 됌.

Regressor

Hand mesh를 추출하기 위해서 SET의 출력 feature을 MANO pose parameters(48)와 shape parameter(10) 의 mesh로 mapping. Single-block hourglass, 4개의 residual blocks 그리고 fully connected layer로 구성됌.

Experiments

DB: HO(hand and object)-3D, First-Person Hand Action (FPHA)
Evaluation: mean joint error and mesh error in mm, F-scores

FIT and SET

Primary feautre에서 occlusion된 영역에 feature들이 잘 injection되어서 표현된 결과를 볼 수 있다.
Self-attention을 통해 좀 더 강화된 feature 영역의 특징이 두드러짐

Architecture of FIT

그림에서 보듯, 일반적인 transformer을 개선한 방안(softmax + sigmoid, residual 제거)이 효과적임을 확인 할 수 있음

고찰

Tramsformer와 attention을 이해하고 목적(occulsion된 곳의 feature 활성화)에 맞게 변형을 잘 했다는 생각이 듬

전체 Forward

#    FIT = Transformer(injection=True) # feature injecting transformer
#    SET = Transformer(injection=False) # self enhancing transformer

def forward(self, inputs, targets, meta_info, mode):
        p_feats, s_feats = self.backbone(inputs['img']) # primary, secondary feats
        feats = self.FIT(s_feats, p_feats)
        feats = self.SET(feats, feats)

        if mode == 'train':
            gt_mano_params = torch.cat([targets['mano_pose'], targets['mano_shape']], dim=1)
        else:
            gt_mano_params = None
        pred_mano_results, gt_mano_results, preds_joints_img = self.regressor(feats, gt_mano_params)

        if mode == 'train':
            # loss functions
            loss = {}
            loss['mano_verts'] = cfg.lambda_mano_verts * F.mse_loss(pred_mano_results['verts3d'], gt_mano_results['verts3d'])
            loss['mano_joints'] = cfg.lambda_mano_joints * F.mse_loss(pred_mano_results['joints3d'], gt_mano_results['joints3d'])
            loss['mano_pose'] = cfg.lambda_mano_pose * F.mse_loss(pred_mano_results['mano_pose'], gt_mano_results['mano_pose'])
            loss['mano_shape'] = cfg.lambda_mano_shape * F.mse_loss(pred_mano_results['mano_shape'], gt_mano_results['mano_shape'])
            loss['joints_img'] = cfg.lambda_joints_img * F.mse_loss(preds_joints_img[0], targets['joints_img'])
            return loss

        else:
            # test output
            out = {}
            out['joints_coord_cam'] = pred_mano_results['joints3d']
            out['mesh_coord_cam'] = pred_mano_results['verts3d']
            return

Transformer

import torch
import torch.nn as nn
import torch.nn.functional as F
from einops import repeat

class Transformer(nn.Module):
    def __init__(self, inp_res=32, dim=256, depth=2, num_heads=4, mlp_ratio=4., injection=True):
        super().__init__()

        self.injection=injection

        self.layers = nn.ModuleList([])
        for _ in range(depth):
            self.layers.append(Block(dim=dim, num_heads=num_heads, mlp_ratio=mlp_ratio, injection=injection))

        if self.injection:
            self.conv1 = nn.Sequential(
                nn.Conv2d(dim*2, dim, 3, padding=1),
                nn.ReLU(),
                nn.Conv2d(dim, dim, 3, padding=1),
            )
            self.conv2 = nn.Sequential(
                nn.Conv2d(dim*2, dim, 1, padding=0),
            )

    def forward(self, query, key):
        output = query
        for i, layer in enumerate(self.layers):
            output = layer(query=output, key=key)

        if self.injection:
            output = torch.cat([key, output], dim=1)
            output = self.conv1(output) + self.conv2(output)

        return output

class Mlp(nn.Module):
    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):
        super().__init__()
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features
        self.fc1 = nn.Linear(in_features, hidden_features)
        self.act = act_layer()
        self.fc2 = nn.Linear(hidden_features, out_features)
        self.drop = nn.Dropout(drop)
        self._init_weights()

    def forward(self, x):
        x = self.fc1(x)
        x = self.act(x)
        x = self.drop(x)
        x = self.fc2(x)
        x = self.drop(x)
        return x

    def _init_weights(self):
        nn.init.xavier_uniform_(self.fc1.weight)
        nn.init.xavier_uniform_(self.fc2.weight)
        nn.init.normal_(self.fc1.bias, std=1e-6)
        nn.init.normal_(self.fc2.bias, std=1e-6)

class Attention(nn.Module):
    def __init__(self, dim, num_heads=1):
        super().__init__()
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.scale = head_dim ** -0.5
        self.sigmoid = nn.Sigmoid()

    def forward(self, query, key, value, query2, key2, use_sigmoid):
        B, N, C = query.shape
        query = query.reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
        key = key.reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
        value = value.reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
        attn = torch.matmul(query, key.transpose(-2, -1)) * self.scale
        attn = attn.softmax(dim=-1)

        if use_sigmoid:
            query2 = query2.reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
            key2 = key2.reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
            attn2 = torch.matmul(query2, key2.transpose(-2, -1)) * self.scale
            attn2 = torch.sum(attn2, dim=-1)
            attn2 = self.sigmoid(attn2)
            attn = attn * attn2.unsqueeze(3) 

        x = torch.matmul(attn, value).transpose(1, 2).reshape(B, N, C)
        return x

class Block(nn.Module):

    def __init__(self, dim, num_heads, mlp_ratio=4., act_layer=nn.GELU, norm_layer=nn.LayerNorm, injection=True):
        super().__init__()

        self.injection = injection

        self.channels = dim

        self.encode_value = nn.Conv2d(in_channels=dim, out_channels=dim, kernel_size=1, stride=1, padding=0)
        self.encode_query = nn.Conv2d(in_channels=dim, out_channels=dim, kernel_size=1, stride=1, padding=0)
        self.encode_key = nn.Conv2d(in_channels=dim, out_channels=dim, kernel_size=1, stride=1, padding=0)

        if self.injection:
            self.encode_query2 = nn.Conv2d(in_channels=dim, out_channels=dim, kernel_size=1, stride=1, padding=0)
            self.encode_key2 = nn.Conv2d(in_channels=dim, out_channels=dim, kernel_size=1, stride=1, padding=0)

        self.attn = Attention(dim, num_heads=num_heads)
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer)
        self.q_embedding = nn.Parameter(torch.randn(1, 256, 32, 32))
        self.k_embedding = nn.Parameter(torch.randn(1, 256, 32, 32))

    def with_pos_embed(self, tensor, pos):
        return tensor if pos is None else tensor + pos

    def forward(self, query, key, query_embed=None, key_embed=None):
        b, c, h, w = query.shape
        query_embed = repeat(self.q_embedding, '() n c d -> b n c d', b = b)
        key_embed = repeat(self.k_embedding, '() n c d -> b n c d', b = b)

        q_embed = self.with_pos_embed(query, query_embed)
        k_embed = self.with_pos_embed(key, key_embed)

        v = self.encode_value(key).view(b, self.channels, -1)
        v = v.permute(0, 2, 1)

        q = self.encode_query(q_embed).view(b, self.channels, -1)
        q = q.permute(0, 2, 1)

        k = self.encode_key(k_embed).view(b, self.channels, -1)
        k = k.permute(0, 2, 1)

        query = query.view(b, self.channels, -1).permute(0, 2, 1)

        if self.injection:
            q2 = self.encode_query2(q_embed).view(b, self.channels, -1)
            q2 = q2.permute(0, 2, 1)

            k2 = self.encode_key2(k_embed).view(b, self.channels, -1)
            k2 = k2.permute(0, 2, 1)

            query = self.attn(query=q, key=k, value=v,query2 = q2, key2 = k2, use_sigmoid=True)
        else:
            q2 = None
            k2 = None

            query = query + self.attn(query=q, key=k, value=v, query2 = q2, key2 = k2, use_sigmoid=False)

        query = query + self.mlp(self.norm2(query))
        query = query.permute(0, 2, 1).contiguous().view(b, self.channels, h, w)

        return query

Jungduri / MLPaperReivew