一个实用价值很大的人脸关键点检测算法PFLD - GiantPandaCV专栏

PFLD 全称 A Practical Facial Landmark Detector 是一个精度高，速度快，模型小的人脸关键点检测模型。在移动端达到了超实时的性能（模型大小 2.1Mb，在 Qualcomm ARM 845 处理器上达到 140fps），作者分别来自武汉大学，天津大学，腾讯 AI Lab，美国天普大学，有较大的实用意义。

人脸关键点检测作为人脸相关应用中的一个基础任务面临了很多挑战，包括检测精度，处理速度，模型大小这些因素都要考虑到，并且在现实场景中很难获取到质量非常高的人脸，所以人脸关键点检测主要面临下面几个挑战：

局部变化：现实场景中人脸的表情，广告，以及遮挡情况都有较大的变化，如 Figure1 所示
全局变化：姿态和成像质量是影响图像中人脸的表征的两个主要因素，人脸全局结构的错误估计将直接导致定位不准
数据不平衡：不平衡的数据使得算法模型无法正确表示数据的特征
模型的性能：由于手机和嵌入式设备计算性能和内存资源的限制，必须要求检测模型的 size 小处理速度快

总的来说，本文设计的 PFLD 在复杂情况下也可以保持高精度。针对全局变化，PFLD 采用辅助网络来估计人脸样本的集合信息。针对数据不平衡，设计新的损失函数，加大对难样本的惩罚力度。使用 multi-scale fc 层扩展感受野精确定位人脸的特征点。使用 Mobilenet Block 构建网络的 Backbone 提升模型的推理速度及减少模型的计算量。

PFLD 的网络结构如下图所示：

其中黄色虚线圈起来的部分表示主分支网络，用于预测关键的位置。绿色虚线圈起来的是 head pose 辅助网络。这样在训练关键点回归的同时预测人脸姿态，从而修改损失函数，使得模型更加关注那些稀有以及姿态角度过大的样本，从而提高预测的精度。

可以看到在主分支网络中，PFLD 并没有采用 VGG16，ResNet50 等大模型。但为了增强模型的表达能力，对 MobilenetV2 的输出特征进行了结构上的修改，如 Figure2 中主分支网络的右边所示。PFLD 融合了 3 个尺度的特征来增加模型的表达能力。

4.1 损失函数设计

我们知道一般的回归损失是 MSE 或者 Smooth L1 Loss，但它们都难以应对数据不均衡的情况，以 MSE Loss 为例，损失函数可以写成：

其中表示人脸样本的数量，表示每张人脸预设的需要检测的特征点数目，在本文表示 L2 距离，表示不同类型样本的不同权重。

而 RetinaNet 中提出的 Focal Loss 可以较好的应对二分类中的数据不均衡情况，受到这一启发，作者设计了下面的损失函数来缓解数据不均衡的情况：

代表权重。
,, () 分别表示 GT 和 Prediction 在yaw、pitch、roll三种角度之间的偏差，角度越大值越小，权重越大。其中pitch代表上下翻转，yaw代表水平翻转，roll代表平面内旋转，都表示人脸的一种姿态。
表示不同的类别的人脸: 正脸、侧脸、抬头、低头、表情以及遮挡情况，根据样本类别分数进行调整，论文中使用的分数样本数的导数计算的。
由主分支网络计算得到，由辅助网络计算得到，然后由 Loss 来建立联系。

4.2 辅助网络的细节

PFLD 在训练过程中引入了一个辅助网络用以监督 PFLD 网络模型的训练，如 Figure2 中绿色虚线里的部分。该子网络仅在训练的阶段起作用，在推理阶段不起作用。

该子网络对每一个输入的人脸样本进行三维欧拉角估计，它的 Ground Truth 由训练数据中的关键点信息进行估计，虽然估计不太精确，但是作为区分数据分布的依据已经足够了，因为这个辅助网络的目的是监督和辅助关键点检测主分支。另外需要注意的一点是，这个辅助网络的输入不是训练数据，而是 PFLD 主分支网络的中间输出（第 4 个 Block）。