几种人脸识别的loss和改进思路

文章目录

1. 大致演进过程

softmax -> 基于欧式空间 -> 基于softmax变体 -> 基于角度空间 [1]

Softmax: (DeepID, DeepFace)
欧式空间：对比损失、triplet loss、center loss 以及 triplet loss和softmax结合 (DeepID 2+, DeepID3, FaceNet, VggFace, TSE, TPE, Range loss)
softmax变体：特征归一化、权重归一化 (NormFace, L2 softmax, CoCo loss, vMF loss)
角度空间：large margin (L softmax, A softmax(Sphereface) , Cos/Arc/Regular/Adaptive face, AMS loss, Adacos)

2. 关于角度

角度 $\theta$ 指的是归一化后的输入x 和归一化之后的类别权重w（类中心）之间的夹角
W*X = ||W|| ||X|| cos $\theta$
W（类中心）如何获得：训练好的网络的最后一层全连接层的每个结点的权重

3. 常见的人脸识别相关的softmax loss

3.0 原始softmax loss

原理：交叉熵，softmax loss
公式：

单个样本的交叉熵：
$Loss_i = -\sum_{j=1}^{K} y_j log(p_j)$
当类别 $j$ 是当前样本GT类别时， $y_j$ = 1，其余 $y_j$ = 0。所以可以简化为 $L = - l o g (p)$ 是关于p的单调递减函数。

一个 batch 的交叉熵：
$Loss=-\frac{1}{N} \sum^N_{i=1}{log\frac{e^{s\cos(\theta_{w_{y},x})}} {e^{scos(\theta_{w_{y},x})}+\sum^{K}_{k\neq y}{e^{s\cos(\theta_{w_{k},x})}}}}$

总共N个样本，K个类别； $w^Tx=cos\theta$ ，w是最后分类的全连接层权重，x是归一化后的输入全连接层的特征， $cos\theta$ 是余弦相似度。s是缩放系数（如64），将归一化后的特征统一缩放到长度为s

3.1 基于挖掘的 [mining based]

思想：对分类概率 p 做文章，分类时强调难样本的重要性。什么是难样本：预测的所在正确类别的概率p较小的样本。

原始softmax： $L = - l o g (p)$ ，p是样本属于GT类别的概率，p增大，L减小。

3.1.1 Hard mining

$L = - I * l o g (p)$ ，p较小的属于难样本， $I$ 为指示函数，难样本的 $I = 1$ ，容易样本 $I = 0$

3.1.2 Soft mining - focal loss

focal loss，将 $I$ 换成 $(1-p)^\gamma$ ， $L=-(1-p)^\gamma*log(p)$ ， $\gamma$ 是调制系数

3.2 基于间隔的 [margin based]

思想：对 $cos\theta$ 做文章，增大不同类别特征之间的间隔，让分类变难(更严格）

如何理解更严格：考虑简单的二分类，类中心分别为 $w_{1}$ 和 $w_{2}$ 。假设有样本 $x_{1}$ 属于类别 $w_{1}$ ，正常情况下把样本分对，只需要 $w_{1}^Tx_{1}>w_{2}^Tx_{1}$ ， $cos\theta_{1}>cos\theta_{2}$ ，但是基于margin的softmax loss不是直接使用 $cos\theta_{1}$ ，而是使用 $cos(m_{1}\theta_{1}+m_{2})-m_{3}$ 的形式, 其中 $m_{1}\geq1, m_{2}>0, m_{3}>0$ 。因为 $cos\theta_{1}\geq cos(m_{1}\theta_{1}+m_{2})-m_{3}$ ，它们要求 $cos(m_{1}\theta_{1}+m_{2})-m_{3}\geq cos\theta_{2}$ ，把左侧的值进一步降低，最终实现的效果是： $cos\theta_{1}\geq cos(m_{1}\theta_{1}+m_{2})-m_{3}\geq cos\theta_{2}$ 。

3.2.1 Angular margin (A-softmax)

原理： $cos(m\theta)$ ， $m\geq1$ 增大输入特征和当前GT类特征之间的夹角带来的影响（要求在分对的情况下，输入特征和类中心具有更小的夹角，相当于减小夹角，减小类内差异）
此时正确分类需要满足： $cos\theta1 \geq cos(m\theta1) \geq cos\theta2$ ，相当于分对的条件变难了。

3.2.2 Additive margin (AM-softmax)

原理： $cos\theta-m$ ，直接减小余弦相似度

3.2.3 Additive angular marign (Arc-softmax)

原理： $cos(\theta+m)$ ，也是相当于减小夹角，减小类内差异。m比如取0.5
公式：
$Loss=-\frac{1}{N} \sum^N{log\frac{e^{s\cos(\theta+m)}} {e^{scos(\theta+m)}+\sum^K{e^{s\cos\theta}}}}$
为什么使用 $cos(\theta+m)$ ，不使用 $cos(m\theta)$ ：

输入范围发生变化， $cos(m\theta)$ 使输入区间变小，导致很难学， $cos(\theta+m)$ 主要是使输入范围发生平移，没有改变区间大小
如果一个分对的样本、一个分错的样本，两个样本与类中心的夹角都比较小（离分界面都很近），乘性margin可能处理完还是很小（还是很近），而加性margin能明显使角度变大（更远离分界面），比如 0.001 + 2 比 0.001 x 2更有区分度。

3.3 同时结合挖掘和间隔的 [mining and margin based]

3.3.1 Mis-classified vector guided softmax loss (MV-softmax)

原理：将3.2基于间隔的方法对 $cos\theta_{w_{y},x}$ 的改造定义为 $f(\theta_{w_{y},x},m)$ ，比如 $f(\theta_{w_{y},x},m)=cos(m_{1}\theta_{w_{y},x}+m_{2})-m_{3}$ 的形式。统一了基于间隔的方法公式。另外，与基于margin的方法不同，MV-softmax：

难样本定义为错分的样本
因为softmax loss的大体形式为 $- l o g (p)$ 是关于p的单调递减函数，MV-softmax在分母上强调难样本的贡献（乘以系数 $h\geq 1$ ），增大分母，减小p的值，从而增大难样本的loss。
不是固定地使用某个margin值，而是不同样本取不同margin。也就是后面的 $e^{st(cos\theta_{w_{k},x}+1)I_{k}}$

公式：MV-softmax将基于margin的softmax loss改造为：
$Loss=-\frac{1}{N} \sum^N{log\frac{e^{sf(\theta_{w_{y},x},m)}} {e^{sf(\theta_{w_{y},x},m)}+\sum^K_{k\neq y}h*{e^{s\cos\theta_{w_{k},x}}}}}$

设计的 $h\geq 1$ ； $h = e^{stI_{k}}$ 或 $e^{st(cos\theta_{w_{k},x}+1)I_{k}}, k\neq y$ ，实际使用的是后面这个可调节的表达式，分错的角度 $\theta_{w_{k},x}$ 越大，loss越大，惩罚越大。其中 t 是超参数，可以取0.2； $I_{k}$ 为指示函数，
$I_{k}=\left\{\begin{aligned} & 0, & f(\theta_{w_{y},x},m) \geq \cos (\theta_{w_{k},x}) 分对的情况下 \\ & 1, & f(\theta_{w_{y},x},m) < \cos (\theta_{w_{k},x}) 分错的情况下 \\ \end{aligned}\right.$

实现：mv-arc-softmax: https://github.com/xiaoboCASIA/SV-X-Softmax/blob/master/fc_layers.py

3.3.2 Circle loss

原理：提出基于类内相似度和类间相似度的loss形式，号称统一了类别学习（proxy-based）和对比学习（pair-wise based, no proxy），在训练过程中，同时强调正样本和负样本。
公式：
设计的
$L_{uni}=log[1+\sum^{K}_{i} \sum^{L}_{j} e^{\gamma (s^{j}_{n}-s^{i}_{p}+m)}]$

$s_{p}$ 和 $s_{n}$ 分别代表类内相似度和类间相似度，类内相似度有K个，类间相似度有L个。
$\gamma$ 是缩放因子， $m$ 是用于相似度分隔的margin

退化成基于类别的loss (AM-softmax)：
N个类别的情况下，对每个样本，类内相似度就一个 $w^{T}_{y}x/(||w||*||x||)$ ，K=1；类间相似度有N-1个，L=N-1。详细推导步骤：

$\begin{aligned} L_{uni} = & log[1+ \sum^{N-1}_{j} e^{\gamma (s^{j}_{n}-s_{p}+m)}] \\ = & log[\frac{e^{\gamma (s_{p}-m)}}{e^{\gamma (s_{p}-m)}} + \frac {e^{\gamma (s_{p}-m)} * \sum^{N-1}_{j} e^{\gamma (s^{j}_{n}-s_{p}+m)} }{e^{\gamma (s_{p}-m)}}] \\ = & log[\frac {e^{\gamma (s_{p}-m)} + \sum^{N-1}_{j} e^{\gamma s^{j}_{n}}}{e^{\gamma (s_{p}-m)}}] \\ = & -log \frac {e^{\gamma (s_{p}-m)}} {e^{\gamma (s_{p}-m)} + \sum^{N-1}_{j} e^{\gamma s^{j}_{n}}} \end{aligned}$

退化成基于样本对的loss (triple loss)：
详细推导步骤不太清楚。
$L_{triple} = \lim_{\gamma \rightarrow + \infty} \frac {1}{\gamma} L_{uni}= max[s^j_{n} - s^i_{p}]_{+}$
让类间相似度和类内相似度根据各自当前状态分别进行优化（根据自己的节奏），即分别乘以 $\alpha_{n}$ 和 $\alpha_{p}$ ，忽略 $m$ ，最终使用的公式（简化形式）为：
$L_{circle} = log[1+\sum^{K}_{i} \sum^{L}_{j} e^{\gamma (\alpha ^{j}_{n} s^{j}_{n} - \alpha ^{i}_{p} s^{i}_{p})}]$
其中， $\alpha_{p} = 1+m-s_{p}$ ， $\alpha_{n}=s_{n} + m$ 。根据经验只使用 $\alpha_{p}$ ，m设置为0.1，同时结合MV-softmax使用（相当于 $\alpha_{n}$ 对应的效果）。

详细推导过程见论文，也不太清楚。

参考资料：
use large pose dataset to improve acc on cox cam2
[1] Mei Wang & Weihong Deng, Deep Face Recognition: A Survey, Neurocomputing
https://zhuanlan.zhihu.com/p/76541084

http://www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/main.htm

https://resources.wolframcloud.com/NeuralNetRepository/resources/2D-Face-Alignment-Net-Trained-on-300W-Large-Pose-Data

http://www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/Database/300W-LP/main.htm

[300W-3D]: https://drive.google.com/file/d/0B7OEHD3T4eCkRFRPSXdFWEhRdlE/view?usp=sharing [300W-3D-Face]: https://drive.google.com/file/d/0B7OEHD3T4eCkZmgzUWZfd2FVVWs/view?usp=sharing [300W-LP]: https://drive.google.com/file/d/0B7OEHD3T4eCkVGs0TkhUWFN6N1k/view?usp=sharing