【自然语言处理】【聚类】DCSC：利用基于对比学习的半监督聚类算法进行意图挖掘

利用基于对比学习的半监督聚类算法进行意图挖掘 《Semi-Supervised Clustering with Contrastive Learning for Discovering New Intents》

论文地址：https://arxiv.org/pdf/2201.07604.pdf

相关博客：
【自然语言处理】【聚类】基于神经网络的聚类算法DEC
【自然语言处理】【聚类】基于对比学习的聚类算法SCCL
【自然语言处理】【聚类】DCSC：利用基于对比学习的半监督聚类算法进行意图挖掘
 【自然语言处理】【聚类】DeepAligned：使用深度对齐聚类发现新意图
 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图
 【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法
 【计算机视觉】【聚类】SwAV：基于对比簇分配的无监督视觉特征学习
 【计算机视觉】【聚类】CC：对比聚类
 【计算机视觉】【聚类】SeLa：同时进行聚类和表示学习的自标注算法
 【自然语言处理】【聚类】ECIC：通过迭代分类增强短文本聚类
 【自然语言处理】【聚类】TELL：可解释神经聚类

一、简介

1. 意图挖掘

任务导向的对话系统依赖于自然语言理解( $\text{NLU}$ )，用于将对话分类到一个已知的意图，并利用预先准备好的答案进行回复。如果能够尽可能的发现新意图，那么聊天机器人就能够回答更多种类的问，从而改善用户体验。通常会使用聚类算法将意图相同的样本聚在同一个簇中，每个簇可以看作是一个意图。此外，聚类的准确率对于意图识别模型也很重要，因为聚类后的样本会被用于训练分类模型。因此，一个好的聊天机器人不仅依赖 $\text{NLU}$ 能力，还依赖聚类这种前期准备的工作。

2. 聚类

意图挖掘这个领域有很多的工作被提出。早期主要是聚焦在无监督聚类算法，基础的方法是合并一个编码器模型和聚类模型。一般来说，特征抽取编码器使用 $\text{BERT}$ 及 $\text{SBERT}$ 这样的语言模型，聚类模型则使用 $\text{K-Mean++}$ 和 $\text{HDBSCAN}$ 等机器学习方法。但是，这种分离编码步骤和聚类步骤的方法，并不能通过聚类损失函数来优化编码器的向量表示。为了解决这个问题，早期的一些工作使用基于深度学习的距离方法，例如 $\text{DEC}$ 和 $\text{DCN}$ 。这些方法将向量表示和无监督聚类合并至同一优化过程，并改善了最终的效果。近期，一些研究尝试引入对比学习损失函数来进一步改善效果。模型 $\text{DeepCluster}$ 和 $\text{SwAV}$ 通过使用对比学习和基于深度学习的聚类极大的改善了下游任务的图像表示。模型 $\text{SCCL}$ 则使用对比学习改善 $\text{DEC}$ ，在无监督文本聚类任务上取得了相当好的效果。

半监督聚类

一般来说，在真实场景中存在着少量已知意图的样本可以使用，但是还存在着大量的无标注语料等待着被分类到已知或者未知的意图。无监督聚类方法无法从这些标注数据中获益从而指定聚类过程，因此近期的研究尝试使用半监督模型来利用这些有限的监督信息。模型 $\text{CDAC+}$ 使用成对相似标注样本来指定聚类过程； $\text{DeepAligned}$ 则通过标注样本先训练一个效果更好的编码器，然后使用 $\text{K-Mean}$ 产生的伪标签来迭代训练这个编码器。

3. 模型 $\text{DCSC}$

总体来说，存在两个途径来改善聚类。

利用标注好的意图样本来更好的初始化文本向量表示；
构建一个联合优化向量表示和聚类的模型；

论文提出了基于深度对比的半监督聚类算法 $\text{DCSC}$ ，该算法使用 $\text{BERT}$ 作为主干网络，并通过两阶段任务来训练。第一阶段， $\text{DCSC}$ 使用交叉熵和监督对比学习来利用标注样本，并利用无监督对比损失来利用未标注样本。第二阶段，我们通过分类器构建伪标签，然后使用交叉熵和监督对比损失函数来在真实标签和伪标签上进行训练。

此外，论文在公开数据集 $\text{Clinc}$ 和 $\text{Banking}$ 上进行了实验，且实验设置与 $\text{DeepAligned}$ 保持一致。此外，论文使用 $\text{Accuarcy(ACC)}$ 、 $\text{Adjusted Rand Index(ARI)}$ 、 $\text{Normalized Mutual Infomation(NMI)}$ 作为评估指标。

二、相关工作

1. 对比学习

对比学习从不同的视角对样本进行增强，然后令模型区分相同样本的不同视角下的增强。例如 $\text{SimCLR}$ 通过对比学习在下游任务中实现了很好的效果。 $\text{SimCSE}$ 则使用简单有效的方法实现了 $\text{NLP}$ 任务的数据增强，并在语义相似度任务上实现了非常好的效果。此外，对比学习被扩展至监督任务上，在嵌入空间中将相同类别的样本拉近，将不同类别的样本拉远。

2. 深度聚类

使用深度网络联合优化向量表格和聚类，可以使向量表示更加适合聚类空间。 $\text{DEC}$ 这样的早期工具，使用神经网络替换 $\text{K-Means}$ ，然后迭代优化神经网络。但是，这种方法可能会导致平凡解，即大多数的实例可能被分配至同一个簇。 $\text{SwAV}$ 则将聚类问题转换为运输问题，然后使用 $\text{Sinkhorn-Knopp}$ 算法来产生软、伪分配。

3. 半监督聚类

一些研究尝试利用半监督聚类算法进行意图发现。 $\text{DeepAligned}$ 提出了两阶段训练策略，骨干网络使用分类标签获取更好的向量表示，然后通过 $\text{K-Mean}$ 产生的伪标签训练分类模型。

三、方法

$\text{DCSC}$ 的目标是从原始语料中发现新意图，主要包括两个阶段：warm up阶段和聚类阶段。

1. Warm Up阶段

$\text{DCSC}$ 的主干网络是语言模型，其使用语言模型的隐藏层输出，然后使用mean pooling聚合出维度为 $D$ 的文本向量表示，并使用全连接层获取最终的向量表示。在数据增强阶段，使用 $\text{SimCSE}$ 相同的策略，也就是使样本输入具有dropout骨干网络来获得2个不同视角的样本。给定一个batch的样本 $X=\{x_1,x_2,\dots,x_N\}$ ，然后通过骨干网络得到的两个不同视角的输出为 $Z=\{z_1,z_2,\dots,z_N\}$ 和 $Z'=\{z_{N+1},z_{N+2},\dots,z_{2N}\}$ ，其中索引 $I=\{1,2,\dots,2N\}$ 。

对于那些有标注样本，其具有标注 $Y=\{y_1,y_2,\dots,y_N\}$ 。 $\text{DCSC}$ 会计算交叉熵损失函数 $\mathcal{L}_{ce}^{warmup}$ ：
$\mathcal{L}_{ce}^{warmup}=-\frac{1}{N}\sum_{i=1}^Nlog\;\frac{\text{exp}(w_{y_i}\cdot z_i)}{\sum_{j=1}^K\text{exp}(w_j\cdot z_i)}$
其中， $K$ 是已知意图的数量， $W=\{w_1,w_2,\dots,w_n\}$ 形状为 $(K, D)$ 的分类器权重。这个warm up 步骤类似于 $\text{DeepAligned}$ ，但是作者认为这种分类任务并不能为聚类产生理想的向量表示。为此，本文添加了另一个监督对比学习损失函数，用于调整同一类别和不同类别样本间的距离。监督对比损失函数为
$\mathcal{L}_{sc}^{warmup}=\sum_{i=1}^{2N}\frac{-1}{|P(i)|}\sum_{p\in P(i)}\text{log}\;\frac{\text{exp}(z_i\cdot z_p/\tau)}{\sum_{j\in A(i)}\text{exp}(z_i\cdot z_j/\tau)}$
其中， $A(i)\equiv I\setminus \{i\},P(i)\equiv\{p\in A(i):\tilde{y}_p=\tilde{y}_i\}$ ，且 $\tau\in\mathcal{R}^+$ 。因此，最终的有监督损失函数 $\mathcal{L}_{sup}^{warmup}$ ：
$\mathcal{L}_{sup}^{warmup}=\mathcal{L}_{ce}^{warmup}+\mathcal{L}_{sc}^{warmup}$
此外， $\text{DCSC}$ 会在所有的样本上应用传统的对比损失函数，从而进一步改进骨干网络的初始化表示。无监督对比损失函数 $\mathcal{L}_{unsup}^{warmup}$ ：
$\mathcal{L}_{unsup}^{warmup}=-\sum_{i=1}^{2N}\text{log}\;\frac{exp(z_i\cdot z_{m(i)}/\tau)}{\sum_{j\in A(i)}exp(z_i\cdot z_j)/\tau}$
其中， $z_{m(i)}$ 是实体 $z_i$ 另一个视角的增强样本。在warm up阶段，交替进行有监督和无监督训练。

2. 聚类Stage

warm up阶段后，使用训练好的骨干网络为所有实例抽取向量表示，并在向量表示上应用 $\text{K-Mean++}$ 来获取簇中心 $C^{'}$ ，其中 $C^{'}$ 的形状为 $(G, D)$ ， $G$ 是真实意图的数量。然后，使用 $\text{Hungarian}$ 算法来完成 $W$ 和 $C^{'}$ 进行对齐， $W$ 包含了已知意图的向量表示( $K < G$ )， $C^{'}$ 是所有的真实意图向量表示。经过对齐后得到 $C=\{c_1,c_2,\dots,c_K\}$ ，其索引顺序同 $W$ 。简单起见，对 $C^{'}$ 进行重新排序 $C'=\{c_1,c_2,\dots,c_K,c_{K+1},\dots,C_G\}$ 。

同warm up阶段一样，聚类阶段也会输出一个batch的数据来获取成对输入 $Z=\{z_1,z_2,\dots,z_N\}$ 和 $Z'=\{z_{N+1},z_{N+2},\dots,z_{2N}\}$ 。

论文参考 $\text{SwAV}$ 的自监督聚类算法。具体来说，使用聚类头对 $Z$ 和 $Z^{'}$ 进行预测并得到 $\text{logit}$ ，即 $Q=\{q_1,q_2,\dots,q_N\}$ 和 $Q'=\{q_{N+1},q_{N+2},\dots,q_{2N}\}$
$q_{ij}=c_j\cdot z_i,\forall i\in\{1,\dots,2N\},j\in\{1,\dots,G\}$
即 $q_{ij}$ 表示样本 $z_i$ 与簇中心 $c_j$ 的相似度。

然后使用 $\text{Sinkhorn-Knopp}$ 为 $Q$ 和 $Q^{'}$ 生成软伪簇分配，称为 $A=\{a_1,a_2,\dots,a_N\}$ 和 $A'={a_{N+1},a_{N+2},\dots,a_{2N}}$ ，形状为 $(N, G)$ 。此外，还会使用 $\text{argmax}$ 获取硬分配 $B=\{b_1,b_2,\dots,b_N\}$ 和 $B'=\{b_{N+1},b_{N+2},\dots,b_{2N}\}$ ，形状为 $N$ 。 $\text{Sinkhorn-Knopp}$ 会为每个实体设置一个软分配的分数，其分配是不仅考虑本身的 $\text{logit}$ ，也会考虑同一batch中其他的 $\text{logit}$ ，从而计算出所有意图的最优分布并避免平凡解。基于软伪分配，计算交叉熵损失函数 $\mathcal{L}_{sinkhorn}^{cluster}$ ：
$\mathcal{L}_{left}^{cluster}=-\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^G\Big(a_{(i+N)j}\cdot log\;\frac{exp(q_{ij})}{\sum_{r=1}^G exp(q_{ir})}\Big) \\ \mathcal{L}_{right}^{cluster}=-\frac{1}{N}\sum_{i=N+1}^{2N}\sum_{j=1}^G\Big(a_{(i-N)j}\cdot log\;\frac{exp(q_{ij})}{\sum_{r=1}^G exp(q_{ir})}\Big) \\ \mathcal{L}_{sinkhorn}^{cluster}=(\mathcal{L}_{left}^{cluster}+\mathcal{L}_{right}^{cluster})/2$
其中， $c\in C'$ 。

此外，为了使向量表示空间中相同簇样本更加接近，从而获得更好的聚类表现。论文也根据产生的伪标签 $B$ 和 $B^{'}$ ，添加了监督对比损失函数 $\mathcal{L}_{pseudo}^{cluster}$ ：
$\mathcal{L}_{pseudo}^{cluster}=\sum_{i=1}^{2N}\frac{-1}{|H(i)|}\sum_{h\in H(i)}\log\;\frac{exp(z_i\cdot z_p/\tau)}{\sum_{j\in A(i)}exp(z_i\cdot z_j/\tau)}$
其中， $H(i)\equiv \Big\{h\in A(i):\tilde{b}_p=\tilde{b}_i\Big\}$ 。这样，深度聚类的最终损失函数为
$\mathcal{L}_{main}^{cluster}=\mathcal{L}_{sinkhorn}^{cluster}+\mathcal{L}_{pseudo}^{cluster}$

知识遗忘

在上面的聚类阶段，在几个epoch后已知意图分类的准确率会下降，似乎是模型遗忘了warm up阶段学习到的信息，这可能导致聚类效果变差。为了保持在已知意图上的分类准确率，我们让模型继续在标注样本上进行训练。此外，为了让标注样本更好的指导聚类过程，令分类层和聚类层共享相同的参数 $C$ 。监督损失函数为
$\mathcal{L}_{ce}^{cluster}=-\frac{1}{N}\sum_{i=1}^Nlog\;\frac{exp(c_{y_i}\cdot z_i)}{\sum_{j=1}^K exp(c_j\cdot z_i)},\forall c\in C \\ \mathcal{L}_{sc}^{cluster}=\sum_{i=1}^{2N}\frac{-1}{|P(i)|}\sum_{p\in P(i)}\text{log}\;\frac{\text{exp}(z_i\cdot z_p/\tau)}{\sum_{j\in A(i)}\text{exp}(z_i\cdot z_j/\tau)} \\ \mathcal{L}_{sup}^{cluster}=\mathcal{L}_{ce}^{cluster}+\mathcal{L}_{sc}^{cluster}$

聚类阶段也采用监督学习和聚类学习交替的方式。