Open YujunXie opened 4 years ago
the input to our deconvolution module is the concatenation of the feature maps and the predicted heatmaps from either HRNet or previous deconvolution modules.
在经过HRNet后的特征图经过4x4的反卷积上采样2倍,再通过4个residual block输出heatmap。
数据集:COCO Keypoint Detection Dataset.
结果:SOTA,但是参数比Bottom-Up的HRNet多了将近3倍。
:question:创新点
:dart: take-home-message
:sparkles: 网络拼接工作,美文一篇,实验做的详实,可以作为写论文的参考(从提出问题,解决问题,实验设计等)。
《Searching for efficient multi-scale ar- chitectures for dense image prediction》
HRNet
简介
方法
:arrow_up::最近邻上采样 + 1x1conv;:arrow_down::3x3conv, stride=2; :arrow_right:: 平移复制;
不同尺度特征图融合:concat;
重复使用低分辨率的特征图增强高分辨率表示。最后得到的特征图既能保持高分辨表征,还具有多尺度信息。
损失函数
与人群计数类似,ground_truth heatmap由高斯核平滑每个关键点的位置得到。
计算与回归的heatmap的差异:MSE函数。
实验
数据集:COCO Keypoint Detection Dataset,MPII Human Pose Estimation,Pose Tracking Dataset
结果:
不同resolution的特征图对关键点预测的影响:1/8的特征图结果最好
网络输入图像尺寸的影响:HRNet在小尺寸128x96图像上的提升最为显著,能够证明高分辨率表征对小目标的作用。
思考:thinking:
:question:文章中关于exchange unit对应multi-scale fusion的叙述让人摸不着头脑
:dart: take-home-message
:sparkles: 网络结构简单高效,可根据训练目标进行调整:
:sparkles: 多尺度信息的融合方式可以更加丰富和可解释性,如semantic-guided, weight-based.
参考文献:books:
论文阅读HRNetV1,HRNetV2,HRNetV2p
《Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs》
《Multi-scale structure-aware network for human pose estimation》
《Fast multi-person pose estimation using pose residual network》
《Pose partition networks for multi-person pose estimation》
《Pose proposal networks》
《Integral human pose regression》
《Deeply learned compositional models for human pose estimation》