论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
Cascaded Pyramid Network for Multi-Person Pose Estimation
1、主要成果
- 提出 C P N ( C a s c a d e d P y r a m i d N e t w o r k ) CPN(Cascaded~Pyramid~Network) CPN(Cascaded Pyramid Network)
- 探索不同因素对自顶向下的多人姿态估计的影响
2、细节
2.1、网络构成
- 使用基于 F P N FPN FPN 检测器的算法检测人体边界框。( R O I A l i g n ROIAlign ROIAlign 替代 R O I P o o l i n g ROIPooling ROIPooling)
- G l o b a l N e t GlobalNet GlobalNet:基于 F P N FPN FPN 的网络结构定位易检测关键点
- R e f i n e N e t RefineNet RefineNet:结合 F P N FPN FPN 的各层特征推理难检关键点,基于训练损失,在线挑选难检关键点
网络结构如图
1
1
1 和图
2
2
2。


2.2、实验设置
评估标准:基于 m A P mAP mAP 的 O K S OKS OKS (目标关键点相似度)。
裁剪策略:将检测器检出的边界框扩展到固定长宽比,然后从图像中剪切,不改变其长宽比,最后将剪切块调整到 256 ∗ 192 256*192 256∗192。
数据增强:剪切后的图像块随机翻转,随机旋转( − 45 ° − 45 ° -45\degree-45\degree −45°−45°),随机缩放( 0.7 − 1.35 0.7-1.35 0.7−1.35)。
输出处理:
- 对预测热图使用高斯滤波
- 预测翻转图像关键点热图,并对两者求平均
- 将最大激活向次大激活偏移 1 4 \frac{1}{4} 41
- 重新打分策略
2.3、实验结果
NMS:阈值设置越大越好,增加
A
P
AP
AP 和
A
R
AR
AR。
S
o
f
t
−
N
M
S
Soft-NMS
Soft−NMS 效果最好。

人体检测AP和关键点AP的关系:随着检测框精度的提高,关键点检测
A
P
AP
AP 的增益越来越小。

CPN的性能优势

RefineNet 的设计

利用不同金字塔层的结果比较

利用
C
2
−
C
5
C2-C5
C2−C5 所有金字塔层实现最优性能
在线难检关键点挖掘
难检关键点的数量设置:
M
=
8
M=8
M=8 实现最优性能

不同损失函数设计方案比较

最终采取
G
l
o
b
a
l
N
e
t
:
L
2
l
o
s
s
;
R
e
f
i
n
e
N
e
t
:
L
2
l
o
s
s
∗
GlobalNet:L2~loss;RefineNet:L2~loss*
GlobalNet:L2 loss;RefineNet:L2 loss∗ 组合方案
裁剪图像大小不同方案比较

裁剪图像越大,性能越优,因为网络可以获取更多关键点位置信息,同时,在线难检关键点挖掘也该能够更好地起作用
在 MS COCO 上的实验结果



3、总结
- 提出
C
P
N
CPN
CPN 网络
- G l o b a l N e t GlobalNet GlobalNet 进行一次整体的关键点检测,主要把易检关键点检出;整体结构类似于 F P N FPN FPN。实验表明它优于单段 H o u r g l a s s Hourglass Hourglass;使用 L 2 L2 L2 损失,进行中间监督,实验表明中间监督有利于提升性能,尤其在配合难检关键点挖掘时更有效。
- R e f i n e N e t RefineNet RefineNet 结合 F P N FPN FPN 各层输出,充分利用上下文并且通过难检关键点挖掘来加强难检关键点检测。通过实验证明:结合 F P N FPN FPN 所有层输出最有利于提升性能;难检关键点损失函数的设计有利于提升性能。
- 对影响多人姿态估计性能的因素进行分析
人体检测器性能的影响:NMS 阈值增加使检测框的 AP 和 AR 增加,从而提升关键点检测性能,Soft-NMS 是最优选择。随着检测器 AP 和 AR 的增加,关键点 AP 提升越来越小,最终完全不变,说明难检关键点对提升多人姿态估计性能比人体检测器更关键
裁剪图像块大小的影响:图像块越大,性能越好,但是计算显著增加。可以发现 256 ∗ 192 256*192 256∗192 和 256 ∗ 256 256*256 256∗256 性能相当,但是计算较少,因此作者选取了 256 ∗ 192 256*192 256∗192 的设置。
4、看法
作者的思路比较直观,先总体进行一轮关键点检测,检出易检关键点,之后通过 R e f i n e N e t RefineNet RefineNet 充分挖掘 F P N FPN FPN 提取的上下文信息,结合难检关键点挖掘技巧,精炼难检关键点从而提升算法性能。
启发:难检关键点挖掘
缺点:不难发现,人体检测—> G l o b a l N e t GlobalNet GlobalNet—> R e f i n e N e t RefineNet RefineNet,网络 F P N FPN FPN 贯穿始终,网络结构比较复杂,存在冗余。可以考虑在较为精简的网络结构中实现所有模块。