Open CatDroid opened 4 months ago
我看代码 projects\rtmpose\rtmpose\wholebody_2d_keypoint\rtmpose-s_8xb64-270e_coco-wholebody-256x192.py 使用的是 RTMCCHead mmpose\models\heads\coord_cls_heads\rtmcc_head.py 但是这里跟SimCC的区别,只是跟论文提及的加了GLU(Gated Linear Unit),并没有看到SORD的处理流程?
论文和代码不一定完全一致,了解核心思路即可,具体实现可以以官方代码为准。
label 用SORD来表征 和 用SimDR/SimCC来表征,区别算是比较大?
SORD的这种处理方式,是否会出现 i-th关键点的预测坐标 跟 i-th关键点的GT坐标的距离,可能相差很大,但是 它跟其他关键点的GT坐标距离,更加大,这样通过softmax计算出来的, i-th关键点的预测坐标 属于 i-th的类别 概率 还是最高?
SORD的这种处理方式,是否会出现 i-th关键点的预测坐标 跟 i-th关键点的GT坐标的距离,可能相差很大,但是 它跟其他关键点的GT坐标距离,更加大,这样通过softmax计算出来的, i-th关键点的预测坐标 属于 i-th的类别 概率 还是最高?
我没读SORD那篇论文,单从RTMPose论文里给的公式来看,是会出现这样的情况的。
关于这篇文章【论文阅读】RTMPose:Real-Time Multi-Person Pose Estimation based on MMPose
请教一个问题, Loss Function中, RTMPose使用了跟SimCC不一样的“把回归坐标转换成分类问题”的方式 ??
具体说是:RTMPose使用SORD的方式,计算 第i个关键点的坐标 与 所有关键点的真实坐标 的 距离 后的 'softmat归一化' 比例,作为 模型输出的(第i个关键点) ‘类别‘’概率 ? 而 SimCC head的方式,是模型输出 第i个关键点 对应x/y方向上 各个bin的概率(向量) 作为 ‘类别’概率