互信息(Mutual Information)

Y 已知的情况下, 对 X时间熵(不确定性)降低的程度

I(X; Y) = H(X) - H(X|Y)

I(X;Y) = \sum_{y\in Y}\sum_{x\in X} p(x, y) log(\frac{p(x,y)}{p(x)p(y)})

p(x,y) : 联合概率分布

p(x), p(y) : 边缘概率分布

聚类属于无监督学习,数据没有标签,为了比较不同聚类模型的好坏,我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息,相关的指标可以分为以下两大类

1. 外部方法,外部方法指的是从外部提供数据的标签,比如通过专家认为定义类别,或者是本身就是有标签的数据,将标签拿掉之后做聚类

2. 内部方法,内部方法指的是不需要数据的标签,仅仅从聚类效果本身出发,而制定的一些指标

Normalized Mutual Information (NMI)

标准化互信息

理论上,互信息的值越大越好,可是其取值范围是没有上边界的。为了更好的比较不同聚类结果,提出了标准化互信息的概念,公式如下

NMI(X, Y) = \frac{2\times I(X;Y)}{H(X) + H(Y)}

将互信息的值归一化到0和1之间,这样就可以在不同数据集之间进行比较了。标准化互信息的值越接近1,聚类效果越好。

应用: 

利用互信息比较不同的聚类结果_tyh70537的博客-CSDN博客

聚类模型评估指标之外部方法 - 腾讯云开发者社区-腾讯云

reference: 

什么是「互信息」? - 知乎