论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)

1、主要成果

  1. 提出 C P N ( C a s c a d e d   P y r a m i d   N e t w o r k ) CPN(Cascaded~Pyramid~Network) CPN(Cascaded Pyramid Network)
  2. 探索不同因素对自顶向下的多人姿态估计的影响

2、细节

2.1、网络构成

  1. 使用基于 F P N FPN FPN 检测器的算法检测人体边界框。( R O I A l i g n ROIAlign ROIAlign 替代 R O I P o o l i n g ROIPooling ROIPooling
  2. G l o b a l N e t GlobalNet GlobalNet:基于 F P N FPN FPN 的网络结构定位易检测关键点
  3. R e f i n e N e t RefineNet RefineNet:结合 F P N FPN FPN 的各层特征推理难检关键点,基于训练损失,在线挑选难检关键点

网络结构如图 1 1 1 和图 2 2 2
在这里插入图片描述
在这里插入图片描述

2.2、实验设置

评估标准:基于 m A P mAP mAP O K S OKS OKS (目标关键点相似度)。

裁剪策略:将检测器检出的边界框扩展到固定长宽比,然后从图像中剪切,不改变其长宽比,最后将剪切块调整到 256 ∗ 192 256*192 256192

数据增强:剪切后的图像块随机翻转,随机旋转( − 45 ° − 45 ° -45\degree-45\degree 45°45°),随机缩放( 0.7 − 1.35 0.7-1.35 0.71.35)。

输出处理

  1. 对预测热图使用高斯滤波
  2. 预测翻转图像关键点热图,并对两者求平均
  3. 将最大激活向次大激活偏移 1 4 \frac{1}{4} 41
  4. 重新打分策略

2.3、实验结果

NMS:阈值设置越大越好,增加 A P AP AP A R AR AR S o f t − N M S Soft-NMS SoftNMS 效果最好。
在这里插入图片描述


人体检测AP和关键点AP的关系:随着检测框精度的提高,关键点检测 A P AP AP 的增益越来越小。
在这里插入图片描述


CPN的性能优势
在这里插入图片描述


RefineNet 的设计
在这里插入图片描述


利用不同金字塔层的结果比较
在这里插入图片描述
利用 C 2 − C 5 C2-C5 C2C5 所有金字塔层实现最优性能


在线难检关键点挖掘

难检关键点的数量设置: M = 8 M=8 M=8 实现最优性能
在这里插入图片描述
不同损失函数设计方案比较
在这里插入图片描述
最终采取 G l o b a l N e t : L 2   l o s s ; R e f i n e N e t : L 2   l o s s ∗ GlobalNet:L2~loss;RefineNet:L2~loss* GlobalNet:L2 loss;RefineNet:L2 loss 组合方案


裁剪图像大小不同方案比较
在这里插入图片描述
裁剪图像越大,性能越优,因为网络可以获取更多关键点位置信息,同时,在线难检关键点挖掘也该能够更好地起作用


在 MS COCO 上的实验结果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


3、总结

  1. 提出 C P N CPN CPN 网络
    1. G l o b a l N e t GlobalNet GlobalNet 进行一次整体的关键点检测,主要把易检关键点检出;整体结构类似于 F P N FPN FPN。实验表明它优于单段 H o u r g l a s s Hourglass Hourglass;使用 L 2 L2 L2 损失,进行中间监督,实验表明中间监督有利于提升性能,尤其在配合难检关键点挖掘时更有效。
    2. R e f i n e N e t RefineNet RefineNet 结合 F P N FPN FPN 各层输出,充分利用上下文并且通过难检关键点挖掘来加强难检关键点检测。通过实验证明:结合 F P N FPN FPN 所有层输出最有利于提升性能;难检关键点损失函数的设计有利于提升性能。
  2. 对影响多人姿态估计性能的因素进行分析
    人体检测器性能的影响NMS 阈值增加使检测框的 AP 和 AR 增加,从而提升关键点检测性能,Soft-NMS 是最优选择随着检测器 AP 和 AR 的增加,关键点 AP 提升越来越小,最终完全不变,说明难检关键点对提升多人姿态估计性能比人体检测器更关键
    裁剪图像块大小的影响图像块越大,性能越好,但是计算显著增加。可以发现 256 ∗ 192 256*192 256192 256 ∗ 256 256*256 256256 性能相当,但是计算较少,因此作者选取了 256 ∗ 192 256*192 256192 的设置。

4、看法

作者的思路比较直观,先总体进行一轮关键点检测,检出易检关键点,之后通过 R e f i n e N e t RefineNet RefineNet 充分挖掘 F P N FPN FPN 提取的上下文信息,结合难检关键点挖掘技巧,精炼难检关键点从而提升算法性能

启发:难检关键点挖掘

缺点:不难发现,人体检测—> G l o b a l N e t GlobalNet GlobalNet—> R e f i n e N e t RefineNet RefineNet,网络 F P N FPN FPN 贯穿始终,网络结构比较复杂,存在冗余。可以考虑在较为精简的网络结构中实现所有模块。