机器学习笔记之概率图模型(五)马尔可夫随机场的结构表示

机器学习笔记之概率图模型——马尔可夫随机场

引言

引言

前面部分介绍了贝叶斯网络的结构表示以及贝叶斯网络相关的概率图模型。本节将介绍马尔可夫随机场(Markov Random Field)的 结构表示(Representation)。

回顾：贝叶斯网络与条件独立性

基于贝叶斯网络(有向图)，样本集合 $\mathcal X$ 各维度信息的联合概率分布 表示如下：
$\mathcal P(\mathcal X) = \mathcal (x_1,\cdots,x_p) = \prod _{i=1}^p \mathcal P(x_i \mid x_{pa(i)})$
其中 $x_{pa(i)}$ 表示结点 $x_i$ 的父结点。基于该式，贝叶斯网络中包含 三种变量之间的典型依赖关系：
详见‘贝叶斯网络的结构表示’一节传送门

同父结构(Common Parent)
顺序结构
$\mathcal V$ 型结构(V-Structure)

实际上，可以通过使用有向分离( $\mathcal D$ 划分，D-Separation)更泛化地判断有向图中变量间的条件独立性。
详见‘贝叶斯网络之有向分离(D划分)’一节。传送门

马尔可夫随机场与条件独立性

全局马尔可夫性(Global Markov Property)

马尔可夫随机场是一种无向图表示方法，相比于贝叶斯网络(有向图)，由于没有箭头指向，因此无向图中变量之间的依赖关系 使用一种方式即可表示：
无向图-变量之间的依赖关系
对应数学符号表示如下：
$i_2 \perp i_3 \mid i_1$

在马尔可夫随机场中，变量之间条件独立性的判别 同样可以使用 类似 $\mathcal D$ 划分的方式 进行描述。不同于贝叶斯网络的 $\mathcal D$ 划分，马尔可夫随机场中的“ $\mathcal D$ 划分”被缩略为一条规则：

场景构建：

假设 $l_a$ 是变量集合 $x_{\mathcal A}$ 中的一个变量；
$l_c$ 是变量集合 $x_{\mathcal C}$ 中的一个变量；
变量 $l_a$ 和 $l_c$ 之间存在一条路径，并且路径上至少存在一个非 $l_a,l_c$ 变量构成的结点，并定义其为 $l_{b_1},l_{b_2},\cdots$

如果变量 $l_a$ 与变量 $l_c$ 之间相互独立，必然需要 $l_{b_1},l_{b_2},\cdots$ 中至少存在一点位于变量集合 $x_{\mathcal B}$ 中。如果存在结点 $l_{b_k}$ 满足如下条件：

$l_{b_k} \in \{l_{b_1},l_{b_2},\cdots\}$
$l_{b_k} \in x_{\mathcal B}$

此时，给定变量集合 $x_{\mathcal B}$ 的结点信息，则有：
$l_a \perp l_c \mid l_{b_k}$
图像表示如下：
无向图的D划分规则
这种规则在无向图中也被称为全局马尔可夫性(Global Markov Property)：给定两个变量子集的分离集，则两个变量子集相互独立。
也就是说， $x_{\mathcal A}$ 集合中的任意点与 $x_{\mathcal C}$ 中的任意点之间如果存在路径，并且所有路径均满足上述情况，则 $x_{\mathcal A}\perp x_{\mathcal C} \mid x_{\mathcal B}$ 。对应图像表示如下：
结点集A和C被结点集B分离
观察上图，任意一个由 $x_{\mathcal A}$ 发射到 $x_{\mathcal C}$ 的路径，均经过 $x_{\mathcal B}$ 中的结点。
对应‘贝叶斯网络’，这里是‘马尔可夫随机场’对全局马尔可夫性的使用。

局部马尔可夫性(Local Markov Property)

示例：一个马尔可夫随机场表示如下：
马尔可夫随机场示例

观察 $i_1$ 结点，与其直接相连的变量有三个，分别是 $i_2,i_3,i_4$ 。如果 给定 $i_2,i_3,i_4$ 条件下，变量 $i_1$ 将条件独立于 $i_5,i_6$ 。

称变量 $i_2,i_3,i_4$ 是变量 $i_1$ 的邻接变量。局部马尔可夫性的具体概念如下：给定某变量的邻接变量，则该变量条件独立于图中除该变量及邻接变量的其他所有变量：

令 $\mathcal V$ 表示图的结点集；
令 $n (v)$ 表示结点 $v$ 的邻接结点构成的集合；

局部马尔可夫性的数学符号表达如下：
$\perp \{\mathcal V - v - n(v)\} \mid n(v)$
上述示例的局部马尔可夫性表达为：
$i_1 \perp \{i_5,i_6\} \mid \{i_2,i_3,i_4\}$

成对马尔可夫性(Pairwise Markov Property)

依然使用上述马尔可夫随机场为例，其中结点 $i_1,i_6$ 是两个非邻接变量。如果 给定除去 $i_1,i_6$ 之外的其他变量结点，则变量 $i_1,i_6$ 之间条件独立：
马尔可夫随机场-成对马尔可夫性示例
成对马尔可夫性的具体概念如下：给定图中除两个非邻接变量的其他所有变量，这两个非邻接变量条件独立：

令图中结点集为 $\mathcal V$ ，边集为 $\mathcal E$ ;
$x_{-i-j}$ 表示图中除去 $x_i,x_j$ 的其他所有结点；
$x_i,x_j>$ 表示结点 $x_i,x_j$ 之间的边；

局部马尔可夫性的数学符号表示如下：
$x_i \perp x_j \mid x_{-i-j} \quad based <x_i,x_j> \notin \mathcal E$

综上，马尔可夫随机场的条件独立性体现为三个方面：全局、局部、成对马尔可夫性。并且这三种性质相互等价。

马尔可夫随机场的因子分解

回顾贝叶斯网络的因子分解：
贝叶斯网络-因子分解示例
由于是有向边，可以通过拓扑排序的方式直接找到结点之间的关联关系：

$i_0,i_2$ 的入度为零，因此在表示条件概率时，只能在’|'的后面。如：
$\mathcal P(i_1 \mid i_0),\mathcal P(i_3 \mid i_2)$
同理，所有结点基于出度与入度的关系，对应表示为 $\mathcal P($ 入度 $\mid$ 出度 $)$ ：
$\mathcal P(i_3 \mid i_1,i_2),\mathcal P(i_4 \mid i_3)$
因此，上述贝叶斯网络中结点的联合概率分布表示如下：
$\begin{aligned} \mathcal P(i_0,i_1,i_2,i_3,i_4) & = \prod_{i=1}^p \mathcal P(i_k \mid i_{pa(k)})\\ & = \mathcal P(i_1 \mid i_0) \cdot \mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_4 \mid i_3) \end{aligned}$

由于马尔可夫随机场对应概率图是无向图，结点之间的边只能表示结点之间存在相关性，而不能表示结点之间显式的因果关系。

如何使用因子分解表示马尔可夫随机场的条件独立性？

概念介绍：团、势函数

团本身是关于结点的集合，其定义表示如下：对于图中结点的一个子集，若该子集内部任意两结点之间都有边连接，则称该结点子集是一个团(Clique)。
已知一个马尔可夫随机场表示如下：
马尔可夫随机场示例-团
根据团的定义，上述示例中可以找到如下几种团：
${i_0,i_1\},\{i_1,i_2,i_3\},\{i_1,i_2\},\{i_2,i_3\},\{i_1,i_3\},\{i_3,i_4\}$
而极大团(Maximal Clique)表示：在一个团中加入任意一个结点后都不再形成团，称该团为极大团。

如上述团 ${i_0,i_1\}$ ，如果加入 $i_2$ ，由于 $i_0,i_2$ 之间没有边，因此无法构成团。因此 ${i_0,i_1\}$ 是极大团；
同理， ${i_1,i_2,i_3\},\{i_3,i_4\}$ 都是极大团。

使用团表示马尔可夫随机场中结点的联合概率分布：

场景构建：
假设数据集合 $\mathcal X$ 共包含 $p$ 个特征/变量：
$\mathcal X = \left(x_1,x_2,\cdots,x_p\right)^T$
这 $p$ 个特征所构成的马尔可夫随机场中，将结点划分成若干个团。假设划分出团的数量为 $\mathcal K$ ，将划分出的团进行如下表示：
$x_{\mathcal C_1},x_{\mathcal C_2},\cdots,x_{\mathcal C_{\mathcal K}}$

将联合概率分布 $\mathcal P(\mathcal X)$ 表示如下：
$\mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i})$

称 $\psi(x_{\mathcal C_i})(i=1,2,\cdots,\mathcal K)$ 为团 $x_{\mathcal C_i}$ 的势函数(Potential Functions)，也称因子(Factor)，它是一个 非负实函数；它用来定义团 $x_{\mathcal C_i}$ 的概率分布函数。
$\mathcal Z$ 被称为规范化因子，具体表示如下：
注意，这里的 $x$ 是指变量维度 -> $(x_1,\cdots,x_p)$
$\begin{aligned} \mathcal Z & = \sum_{x} \prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i}) \\ & = \sum_{x_1,\cdots,x_p}\prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i}) \end{aligned}$
规范化因子的作用 即确保 $\mathcal P(\mathcal X)$ 是正确的概率结果。

关于马尔可夫随机场因子分解的证明

这里介绍西瓜书中的证明过程。
既然通过势函数 $\psi(x_{\mathcal C_i})(i=1,2,\cdots,\mathcal K)$ 将联合概率分布 $\mathcal P(\mathcal X)$ 分解称如下形式：
$\mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K}\psi(x_{\mathcal C_i})$
基于该公式，我们需要证明： $x_{\mathcal C_i}(i=1,2,\cdots,\mathcal K)$ 的条件独立性。
基于全局马尔可夫性，马尔可夫随机场的结点结构是单一的，假设三个团 $x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3}$ 结构表示如下：
势函数证明
只需要证明：给定团 $x_{\mathcal C_2}$ 的条件下，团 $x_{\mathcal C_1}$ 和团 $x_{\mathcal C_3}$ 条件独立即可。即：
$\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3} \mid x_{\mathcal C_2}) = \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) \cdot \mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2})$

等式左侧：

利用条件概率公式和概率的加法公式(积分运算)，将 $\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2})$ 表示为如下形式：
$\begin{aligned} \mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2}) & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\mathcal P(x_{\mathcal C_2})} \\ & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_1},x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned}$
观察上图，可以将上述三个团看成三个结点，上图中的三个结点构成了两个更大的团： $\{x_{\mathcal C_1},x_{\mathcal C_2}\},\{x_{\mathcal C_2},x_{\mathcal C_3}\}$ 。并分别定义对应的势函数为 $\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}),\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})$ 。利用势函数将联合概率分布进行展开：
规范化因子 $\mathcal Z$ 消掉了。
$\begin{aligned} \mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3}) & = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K}\psi(x_{\mathcal C_i})\\ & = \frac{1}{\mathcal Z} \cdot \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3}) \\ \mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2}) & = \frac{\frac{1}{\mathcal Z} \cdot \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} {\sum_{x_{\mathcal C_1},x_{\mathcal C_3}} \frac{1}{\mathcal Z}\cdot \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} \\ & = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} {\sum_{x_{\mathcal C_1},x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned}$
又因为 团 $x_{\mathcal C_1}$ 和团 $x_{\mathcal C_3}$ 之间的结点不相交。因此，分母可表示为如下形式：
$\sum_{x_{\mathcal C_1},x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3}) = \sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})$
最终， $\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2})$ 可表示为如下形式：
$\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2}) = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})}{\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})} \cdot \frac{\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}$

等式右侧：首先观察 $\mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2})$ 。和等式左侧展开方式相似，但需要对分子、分母均执行积分运算：
$\begin{aligned} \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2})}{\mathcal P(x_{\mathcal C_2})} \\ & = \frac{\sum_{x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_1},x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned}$
使用势函数对联合概率分布 $\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})$ 进行展开：
$\mathcal Z,\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})$ 被消掉。
$\begin{aligned} \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) & = \frac{\frac{1}{\mathcal Z}\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}}\psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})}{\frac{1}{\mathcal Z}\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})} \\ & = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})}{\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})} \end{aligned}$
同理， $\mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2})$ 和 $\mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2})$ 存在相同的展开方式，对应结果表示如下：
$\mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2}) = \frac{\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}$

至此，等式左侧 = 等式右侧，证毕。
至此，可证明势函数对联合概率分布 的表达可以表示团之间的条件独立性。
势函数的本质 -> 在介绍‘受限玻尔兹曼机’时再回顾介绍。考古传送门

马尔可夫毯

马尔可夫毯(Markov Blanket)是一个由结点组成的集合。在马尔可夫随机场中表示为：某变量的所有邻接变量组成的集合。

马尔可夫毯的性质在局部马尔可夫性中得到了描述：如果给定某变量的马尔可夫毯，无向图中除去该变量及对应马尔可夫毯之外的所有变量与该变量条件独立。

马尔可夫毯的这种性质，可以将其视为一种屏障：只要该屏障被给定，意味着马尔可夫毯所包围的结点与马尔可夫毯外的其他结点相互独立。

但实际上，马尔可夫毯并不是马尔可夫随机场中特有的描述，在贝叶斯网络中，同样存在马尔可夫毯。

以某贝叶斯网络的结点 $x_i$ 为例，假设该贝叶斯网络中一共包含 $p$ 个结点(对应数据集合 $\mathcal X$ 的 $p$ 个特征变量)，结点 $x_i$ 的条件概率 表示如下：
这里为了简化起见，使用 $x_{-i}$ 替代。即除去 $x_i$ 的其他结点。
$\mathcal P(x_i \mid x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_p) = \mathcal P(x_i \mid x_{-i})$
我们将其展开：
$x_i$ 设为‘离散型随机变量’，因此，它的积分形式是 $\sum_{x_i}$
$\begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\mathcal P(x_i,x_{-i})}{\mathcal P(x_{-i})} \\ & = \frac{\mathcal P(\mathcal X)}{\sum_{x_i} \mathcal P(\mathcal X)} \end{aligned}$
将贝叶斯网络因子分解 公式代入上式：
$\begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\prod_{j=1}^p \mathcal P(x_j \mid x_{pa(j)})}{\sum_{x_i} \prod_{j=1}^p \mathcal P(x_j \mid x_{pa(j)})} \end{aligned}$
观察分母，它的积分只限制 $x_i$ 相关的结点，与 $x_i$ 无关的结点都可视作常数，并与分子中的 $x_i$ 无关结果消掉：
假设与 $x_i$ 相关的结点集合为 $\Delta$ ，则有：
$\begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\prod_{j \notin \Delta} \mathcal P(x_j \mid x_{pa(j)}) \cdot \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})}{\prod_{j \notin \Delta} \mathcal P(x_j \mid x_{pa(j)}) \cdot \sum_{x_i} \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})} \\ & = \frac{\prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})}{\sum_{x_i} \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})} \end{aligned}$
至此，在求解 $x_i$ 变量的条件概率时，将范围从特征集合中的所有结点 缩小到 与 $x_i$ 相关的若干结点。
我们要判定哪些结点是否与 $x_i$ 存在关联？

$x_i$ 作为子节点，存在结点作为父结点指向 $x_i$ ；
$\mathcal P(x_j = x_i \mid x_{pa(j)})$
$x_i$ 作为父结点，存在结点使得 $x_i$ 作为父结点指向该节点；
$\mathcal P(x_j \mid x_{pa(j)} = x_i)$
贝叶斯网络的 $\mathcal V$ 型结构 中， $x_i$ 的子结点给定的条件下， $x_i$ 结点与另外的父结点 $x_k$ 之间存在关联关系；
$\mathcal P(x_j \mid x_{pa(j)} = x_i,x_k)$

至此，贝叶斯网络中，某结点 $x_i$ 的马尔可夫毯表示如下：
该图只是一个子图，延伸的部分略。
i1结点的马尔可夫毯
通过观察发现，贝叶斯网络的马尔可夫毯和马尔可夫随机场的存在一定区别： $i_5,i_6$ 和 $i_1$ 之间没有边相连接。
但如果将上述图像转化为道德图，观察转化结果：
贝叶斯网络-马尔可夫毯-道德图
观察发现，转换成道德图中， $i_0,i_2,i_3,i_4,i_5,i_6$ 都与 $i_1$ 组成了临接变量关系。

下一节将介绍推断(Inference)。