机器学习笔记之概率图模型(五)马尔可夫随机场的结构表示
机器学习笔记之概率图模型——马尔可夫随机场
引言
前面部分介绍了贝叶斯网络的结构表示以及贝叶斯网络相关的概率图模型。本节将介绍马尔可夫随机场(Markov Random Field)的 结构表示(Representation)。
回顾:贝叶斯网络与条件独立性
基于贝叶斯网络(有向图),样本集合
X
\mathcal X
X各维度信息的联合概率分布 表示如下:
P
(
X
)
=
(
x
1
,
⋯
,
x
p
)
=
∏
i
=
1
p
P
(
x
i
∣
x
p
a
(
i
)
)
\mathcal P(\mathcal X) = \mathcal (x_1,\cdots,x_p) = \prod _{i=1}^p \mathcal P(x_i \mid x_{pa(i)})
P(X)=(x1,⋯,xp)=i=1∏pP(xi∣xpa(i))
其中
x
p
a
(
i
)
x_{pa(i)}
xpa(i)表示结点
x
i
x_i
xi的父结点。基于该式,贝叶斯网络中包含 三种变量之间的典型依赖关系:
详见‘贝叶斯网络的结构表示’一节传送门
- 同父结构(Common Parent)
- 顺序结构
- V \mathcal V V型结构(V-Structure)
实际上,可以通过使用有向分离(
D
\mathcal D
D划分,D-Separation)更泛化地判断有向图中变量间的条件独立性。
详见‘贝叶斯网络之有向分离(D划分)’一节。传送门
马尔可夫随机场与条件独立性
全局马尔可夫性(Global Markov Property)
马尔可夫随机场是一种无向图表示方法,相比于贝叶斯网络(有向图),由于没有箭头指向,因此无向图中变量之间的依赖关系 使用一种方式即可表示:

对应数学符号表示如下:
i
2
⊥
i
3
∣
i
1
i_2 \perp i_3 \mid i_1
i2⊥i3∣i1
在马尔可夫随机场中,变量之间条件独立性的判别 同样可以使用 类似 D \mathcal D D划分的方式 进行描述。不同于贝叶斯网络的 D \mathcal D D划分,马尔可夫随机场中的“ D \mathcal D D划分”被缩略为一条规则:
场景构建:
- 假设 l a l_a la是变量集合 x A x_{\mathcal A} xA中的一个变量;
- l c l_c lc是变量集合 x C x_{\mathcal C} xC中的一个变量;
- 变量 l a l_a la和 l c l_c lc之间存在一条路径,并且路径上至少存在一个非 l a , l c l_a,l_c la,lc变量构成的结点,并定义其为 l b 1 , l b 2 , ⋯ l_{b_1},l_{b_2},\cdots lb1,lb2,⋯
如果变量 l a l_a la与变量 l c l_c lc之间相互独立,必然需要 l b 1 , l b 2 , ⋯ l_{b_1},l_{b_2},\cdots lb1,lb2,⋯中至少存在一点位于变量集合 x B x_{\mathcal B} xB中。如果存在结点 l b k l_{b_k} lbk满足如下条件:
- l b k ∈ { l b 1 , l b 2 , ⋯ } l_{b_k} \in \{l_{b_1},l_{b_2},\cdots\} lbk∈{lb1,lb2,⋯}
- l b k ∈ x B l_{b_k} \in x_{\mathcal B} lbk∈xB
此时,给定变量集合
x
B
x_{\mathcal B}
xB的结点信息,则有:
l
a
⊥
l
c
∣
l
b
k
l_a \perp l_c \mid l_{b_k}
la⊥lc∣lbk
图像表示如下:

这种规则在无向图中也被称为全局马尔可夫性(Global Markov Property):给定两个变量子集的分离集,则两个变量子集相互独立。
也就是说,
x
A
x_{\mathcal A}
xA集合中的任意点与
x
C
x_{\mathcal C}
xC中的任意点之间如果存在路径,并且所有路径均满足上述情况,则
x
A
⊥
x
C
∣
x
B
x_{\mathcal A}\perp x_{\mathcal C} \mid x_{\mathcal B}
xA⊥xC∣xB。对应图像表示如下:

观察上图,任意一个由
x
A
x_{\mathcal A}
xA发射到
x
C
x_{\mathcal C}
xC的路径,均经过
x
B
x_{\mathcal B}
xB中的结点。
对应‘贝叶斯网络’,这里是‘马尔可夫随机场’对全局马尔可夫性的使用。
局部马尔可夫性(Local Markov Property)
示例:一个马尔可夫随机场表示如下:

观察 i 1 i_1 i1结点,与其直接相连的变量有三个,分别是 i 2 , i 3 , i 4 i_2,i_3,i_4 i2,i3,i4。如果 给定 i 2 , i 3 , i 4 i_2,i_3,i_4 i2,i3,i4条件下,变量 i 1 i_1 i1将条件独立于 i 5 , i 6 i_5,i_6 i5,i6。
称变量 i 2 , i 3 , i 4 i_2,i_3,i_4 i2,i3,i4是变量 i 1 i_1 i1的邻接变量。局部马尔可夫性的具体概念如下:给定某变量的邻接变量,则该变量条件独立于图中除该变量及邻接变量的其他所有变量:
- 令 V \mathcal V V表示图的结点集;
- 令 n ( v ) n(v) n(v)表示结点 v v v的邻接结点构成的集合;
局部马尔可夫性的数学符号表达如下:
v
⊥
{
V
−
v
−
n
(
v
)
}
∣
n
(
v
)
v \perp \{\mathcal V - v - n(v)\} \mid n(v)
v⊥{V−v−n(v)}∣n(v)
上述示例的局部马尔可夫性表达为:
i
1
⊥
{
i
5
,
i
6
}
∣
{
i
2
,
i
3
,
i
4
}
i_1 \perp \{i_5,i_6\} \mid \{i_2,i_3,i_4\}
i1⊥{i5,i6}∣{i2,i3,i4}
成对马尔可夫性(Pairwise Markov Property)
依然使用上述马尔可夫随机场为例,其中结点
i
1
,
i
6
i_1,i_6
i1,i6是两个非邻接变量。如果 给定除去
i
1
,
i
6
i_1,i_6
i1,i6之外的其他变量结点,则变量
i
1
,
i
6
i_1,i_6
i1,i6之间条件独立:

成对马尔可夫性的具体概念如下:给定图中除两个非邻接变量的其他所有变量,这两个非邻接变量条件独立:
- 令图中结点集为 V \mathcal V V,边集为 E \mathcal E E;
- x − i − j x_{-i-j} x−i−j表示图中除去 x i , x j x_i,x_j xi,xj的其他所有结点;
- < x i , x j > <x_i,x_j> <xi,xj>表示结点 x i , x j x_i,x_j xi,xj之间的边;
局部马尔可夫性的数学符号表示如下:
x
i
⊥
x
j
∣
x
−
i
−
j
b
a
s
e
d
<
x
i
,
x
j
>
∉
E
x_i \perp x_j \mid x_{-i-j} \quad based <x_i,x_j> \notin \mathcal E
xi⊥xj∣x−i−jbased<xi,xj>∈/E
综上,马尔可夫随机场的条件独立性体现为三个方面:全局、局部、成对马尔可夫性。并且这三种性质相互等价。
马尔可夫随机场的因子分解
回顾贝叶斯网络的因子分解:

由于是有向边,可以通过拓扑排序的方式直接找到结点之间的关联关系:
-
i
0
,
i
2
i_0,i_2
i0,i2的入度为零,因此在表示条件概率时,只能在’|'的后面。如:
P ( i 1 ∣ i 0 ) , P ( i 3 ∣ i 2 ) \mathcal P(i_1 \mid i_0),\mathcal P(i_3 \mid i_2) P(i1∣i0),P(i3∣i2) - 同理,所有结点基于出度与入度的关系,对应表示为
P
(
\mathcal P(
P(入度
∣
\mid
∣出度
)
)
):
P ( i 3 ∣ i 1 , i 2 ) , P ( i 4 ∣ i 3 ) \mathcal P(i_3 \mid i_1,i_2),\mathcal P(i_4 \mid i_3) P(i3∣i1,i2),P(i4∣i3) - 因此,上述贝叶斯网络中结点的联合概率分布表示如下:
P ( i 0 , i 1 , i 2 , i 3 , i 4 ) = ∏ i = 1 p P ( i k ∣ i p a ( k ) ) = P ( i 1 ∣ i 0 ) ⋅ P ( i 3 ∣ i 1 , i 2 ) ⋅ P ( i 4 ∣ i 3 ) \begin{aligned} \mathcal P(i_0,i_1,i_2,i_3,i_4) & = \prod_{i=1}^p \mathcal P(i_k \mid i_{pa(k)})\\ & = \mathcal P(i_1 \mid i_0) \cdot \mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_4 \mid i_3) \end{aligned} P(i0,i1,i2,i3,i4)=i=1∏pP(ik∣ipa(k))=P(i1∣i0)⋅P(i3∣i1,i2)⋅P(i4∣i3)
由于马尔可夫随机场对应概率图是无向图,结点之间的边只能表示结点之间存在相关性,而不能表示结点之间显式的因果关系。
如何使用因子分解表示马尔可夫随机场的条件独立性?
概念介绍:团、势函数
团本身是关于结点的集合,其定义表示如下:对于图中结点的一个子集,若该子集内部任意两结点之间都有边连接,则称该结点子集是一个团(Clique)。
已知一个马尔可夫随机场表示如下:

根据团的定义,上述示例中可以找到如下几种团:
{
i
0
,
i
1
}
,
{
i
1
,
i
2
,
i
3
}
,
{
i
1
,
i
2
}
,
{
i
2
,
i
3
}
,
{
i
1
,
i
3
}
,
{
i
3
,
i
4
}
\{i_0,i_1\},\{i_1,i_2,i_3\},\{i_1,i_2\},\{i_2,i_3\},\{i_1,i_3\},\{i_3,i_4\}
{i0,i1},{i1,i2,i3},{i1,i2},{i2,i3},{i1,i3},{i3,i4}
而极大团(Maximal Clique)表示:在一个团中加入任意一个结点后都不再形成团,称该团为极大团。
如上述团
{
i
0
,
i
1
}
\{i_0,i_1\}
{i0,i1},如果加入
i
2
i_2
i2,由于
i
0
,
i
2
i_0,i_2
i0,i2之间没有边,因此无法构成团。因此
{
i
0
,
i
1
}
\{i_0,i_1\}
{i0,i1}是极大团;
同理,
{
i
1
,
i
2
,
i
3
}
,
{
i
3
,
i
4
}
\{i_1,i_2,i_3\},\{i_3,i_4\}
{i1,i2,i3},{i3,i4}都是极大团。
使用团表示马尔可夫随机场中结点的联合概率分布:
- 场景构建:
假设数据集合 X \mathcal X X共包含 p p p个特征/变量:
X = ( x 1 , x 2 , ⋯ , x p ) T \mathcal X = \left(x_1,x_2,\cdots,x_p\right)^T X=(x1,x2,⋯,xp)T - 这
p
p
p个特征所构成的马尔可夫随机场中,将结点划分成若干个团。假设划分出团的数量为
K
\mathcal K
K,将划分出的团进行如下表示:
x C 1 , x C 2 , ⋯ , x C K x_{\mathcal C_1},x_{\mathcal C_2},\cdots,x_{\mathcal C_{\mathcal K}} xC1,xC2,⋯,xCK
将联合概率分布
P
(
X
)
\mathcal P(\mathcal X)
P(X)表示如下:
P
(
X
)
=
1
Z
∏
i
=
1
K
ψ
(
x
C
i
)
\mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i})
P(X)=Z1i=1∏Kψ(xCi)
- 称 ψ ( x C i ) ( i = 1 , 2 , ⋯ , K ) \psi(x_{\mathcal C_i})(i=1,2,\cdots,\mathcal K) ψ(xCi)(i=1,2,⋯,K)为团 x C i x_{\mathcal C_i} xCi的势函数(Potential Functions),也称因子(Factor),它是一个 非负实函数;它用来定义团 x C i x_{\mathcal C_i} xCi的概率分布函数。
-
Z
\mathcal Z
Z被称为规范化因子,具体表示如下:
注意,这里的x x x是指变量维度 ->( x 1 , ⋯ , x p ) (x_1,\cdots,x_p) (x1,⋯,xp)
Z = ∑ x ∏ i = 1 K ψ ( x C i ) = ∑ x 1 , ⋯ , x p ∏ i = 1 K ψ ( x C i ) \begin{aligned} \mathcal Z & = \sum_{x} \prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i}) \\ & = \sum_{x_1,\cdots,x_p}\prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i}) \end{aligned} Z=x∑i=1∏Kψ(xCi)=x1,⋯,xp∑i=1∏Kψ(xCi)
规范化因子的作用 即确保 P ( X ) \mathcal P(\mathcal X) P(X)是正确的概率结果。
关于马尔可夫随机场因子分解的证明
这里介绍西瓜书中的证明过程。
既然通过势函数
ψ
(
x
C
i
)
(
i
=
1
,
2
,
⋯
,
K
)
\psi(x_{\mathcal C_i})(i=1,2,\cdots,\mathcal K)
ψ(xCi)(i=1,2,⋯,K)将联合概率分布
P
(
X
)
\mathcal P(\mathcal X)
P(X)分解称如下形式:
P
(
X
)
=
1
Z
∏
i
=
1
K
ψ
(
x
C
i
)
\mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K}\psi(x_{\mathcal C_i})
P(X)=Z1i=1∏Kψ(xCi)
基于该公式,我们需要证明:
x
C
i
(
i
=
1
,
2
,
⋯
,
K
)
x_{\mathcal C_i}(i=1,2,\cdots,\mathcal K)
xCi(i=1,2,⋯,K)的条件独立性。
基于全局马尔可夫性,马尔可夫随机场的结点结构是单一的,假设三个团
x
C
1
,
x
C
2
,
x
C
3
x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3}
xC1,xC2,xC3结构表示如下:

只需要证明:给定团
x
C
2
x_{\mathcal C_2}
xC2的条件下,团
x
C
1
x_{\mathcal C_1}
xC1和团
x
C
3
x_{\mathcal C_3}
xC3条件独立即可。即:
P
(
x
C
1
,
x
C
3
∣
x
C
2
)
=
P
(
x
C
1
∣
x
C
2
)
⋅
P
(
x
C
3
∣
x
C
2
)
\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3} \mid x_{\mathcal C_2}) = \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) \cdot \mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2})
P(xC1,xC3∣xC2)=P(xC1∣xC2)⋅P(xC3∣xC2)
等式左侧:
- 利用条件概率公式和概率的加法公式(积分运算),将
P
(
x
C
1
,
x
C
3
∣
x
C
2
)
\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2})
P(xC1,xC3∣xC2)表示为如下形式:
P ( x C 1 , x C 3 ∣ x C 2 ) = P ( x C 1 , x C 2 , x C 3 ) P ( x C 2 ) = P ( x C 1 , x C 2 , x C 3 ) ∑ x C 1 , x C 3 P ( x C 1 , x C 2 , x C 3 ) \begin{aligned} \mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2}) & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\mathcal P(x_{\mathcal C_2})} \\ & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_1},x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned} P(xC1,xC3∣xC2)=P(xC2)P(xC1,xC2,xC3)=∑xC1,xC3P(xC1,xC2,xC3)P(xC1,xC2,xC3) - 观察上图,可以将上述三个团看成三个结点,上图中的三个结点构成了两个更大的团:
{
x
C
1
,
x
C
2
}
,
{
x
C
2
,
x
C
3
}
\{x_{\mathcal C_1},x_{\mathcal C_2}\},\{x_{\mathcal C_2},x_{\mathcal C_3}\}
{xC1,xC2},{xC2,xC3}。并分别定义对应的势函数为
ψ
C
1
C
2
(
x
C
1
,
x
C
2
)
,
ψ
C
2
C
3
(
x
C
2
,
x
C
3
)
\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}),\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})
ψC1C2(xC1,xC2),ψC2C3(xC2,xC3)。利用势函数将联合概率分布进行展开:
规范化因子Z \mathcal Z Z消掉了。
P ( x C 1 , x C 2 , x C 3 ) = 1 Z ∏ i = 1 K ψ ( x C i ) = 1 Z ⋅ ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) P ( x C 1 , x C 3 ∣ x C 2 ) = 1 Z ⋅ ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) ∑ x C 1 , x C 3 1 Z ⋅ ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) = ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) ∑ x C 1 , x C 3 ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) \begin{aligned} \mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3}) & = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K}\psi(x_{\mathcal C_i})\\ & = \frac{1}{\mathcal Z} \cdot \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3}) \\ \mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2}) & = \frac{\frac{1}{\mathcal Z} \cdot \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} {\sum_{x_{\mathcal C_1},x_{\mathcal C_3}} \frac{1}{\mathcal Z}\cdot \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} \\ & = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} {\sum_{x_{\mathcal C_1},x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned} P(xC1,xC2,xC3)P(xC1,xC3∣xC2)=Z1i=1∏Kψ(xCi)=Z1⋅ψC1C2(xC1,xC2)⋅ψC2C3(xC2,xC3)=∑xC1,xC3Z1⋅ψC1C2(xC1,xC2)⋅ψC2C3(xC2,xC3)Z1⋅ψC1C2(xC1,xC2)⋅ψC2C3(xC2,xC3)=∑xC1,xC3ψC1C2(xC1,xC2)⋅ψC2C3(xC2,xC3)ψC1C2(xC1,xC2)⋅ψC2C3(xC2,xC3) - 又因为 团
x
C
1
x_{\mathcal C_1}
xC1和团
x
C
3
x_{\mathcal C_3}
xC3之间的结点不相交。因此,分母可表示为如下形式:
∑ x C 1 , x C 3 ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) = ∑ x C 1 ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ∑ x C 3 ψ C 2 C 3 ( x C 2 , x C 3 ) \sum_{x_{\mathcal C_1},x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3}) = \sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3}) xC1,xC3∑ψC1C2(xC1,xC2)⋅ψC2C3(xC2,xC3)=xC1∑ψC1C2(xC1,xC2)⋅xC3∑ψC2C3(xC2,xC3) - 最终,
P
(
x
C
1
,
x
C
3
∣
x
C
2
)
\mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2})
P(xC1,xC3∣xC2)可表示为如下形式:
P ( x C 1 , x C 3 ∣ x C 2 ) = ψ C 1 C 2 ( x C 1 , x C 2 ) ∑ x C 1 ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ψ C 2 C 3 ( x C 2 , x C 3 ) ∑ x C 3 ψ C 2 C 3 ( x C 2 , x C 3 ) \mathcal P(x_{\mathcal C_1},x_{\mathcal C_3}\mid x_{\mathcal C_2}) = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})}{\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})} \cdot \frac{\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} P(xC1,xC3∣xC2)=∑xC1ψC1C2(xC1,xC2)ψC1C2(xC1,xC2)⋅∑xC3ψC2C3(xC2,xC3)ψC2C3(xC2,xC3)
等式右侧:首先 观察
P
(
x
C
1
∣
x
C
2
)
\mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2})
P(xC1∣xC2)。和等式左侧展开方式相似,但需要对分子、分母均执行积分运算:
P
(
x
C
1
∣
x
C
2
)
=
P
(
x
C
1
,
x
C
2
)
P
(
x
C
2
)
=
∑
x
C
3
P
(
x
C
1
,
x
C
2
,
x
C
3
)
∑
x
C
1
,
x
C
3
P
(
x
C
1
,
x
C
2
,
x
C
3
)
\begin{aligned} \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2})}{\mathcal P(x_{\mathcal C_2})} \\ & = \frac{\sum_{x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_1},x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned}
P(xC1∣xC2)=P(xC2)P(xC1,xC2)=∑xC1,xC3P(xC1,xC2,xC3)∑xC3P(xC1,xC2,xC3)
使用势函数对联合概率分布
P
(
x
C
1
,
x
C
2
,
x
C
3
)
\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})
P(xC1,xC2,xC3)进行展开:
Z
,
∑
x
C
3
ψ
C
1
C
3
(
x
C
1
,
x
C
3
)
\mathcal Z,\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})
Z,∑xC3ψC1C3(xC1,xC3)被消掉。
P
(
x
C
1
∣
x
C
2
)
=
1
Z
ψ
C
1
C
2
(
x
C
1
,
x
C
2
)
⋅
∑
x
C
3
ψ
C
1
C
3
(
x
C
1
,
x
C
3
)
1
Z
∑
x
C
1
ψ
C
1
C
2
(
x
C
1
,
x
C
2
)
⋅
∑
x
C
3
ψ
C
1
C
3
(
x
C
1
,
x
C
3
)
=
ψ
C
1
C
2
(
x
C
1
,
x
C
2
)
∑
x
C
1
ψ
C
1
C
2
(
x
C
1
,
x
C
2
)
\begin{aligned} \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) & = \frac{\frac{1}{\mathcal Z}\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}}\psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})}{\frac{1}{\mathcal Z}\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})} \\ & = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})}{\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})} \end{aligned}
P(xC1∣xC2)=Z1∑xC1ψC1C2(xC1,xC2)⋅∑xC3ψC1C3(xC1,xC3)Z1ψC1C2(xC1,xC2)⋅∑xC3ψC1C3(xC1,xC3)=∑xC1ψC1C2(xC1,xC2)ψC1C2(xC1,xC2)
同理,
P
(
x
C
3
∣
x
C
2
)
\mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2})
P(xC3∣xC2)和
P
(
x
C
1
∣
x
C
2
)
\mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2})
P(xC1∣xC2)存在相同的展开方式,对应结果表示如下:
P
(
x
C
3
∣
x
C
2
)
=
ψ
C
2
C
3
(
x
C
2
,
x
C
3
)
∑
x
C
3
ψ
C
2
C
3
(
x
C
2
,
x
C
3
)
\mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2}) = \frac{\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}
P(xC3∣xC2)=∑xC3ψC2C3(xC2,xC3)ψC2C3(xC2,xC3)
至此,等式左侧 = 等式右侧,证毕。
至此,可证明势函数对联合概率分布 的表达可以表示团之间的条件独立性。
势函数的本质 -> 在介绍‘受限玻尔兹曼机’时再回顾介绍。考古传送门
马尔可夫毯
马尔可夫毯(Markov Blanket)是一个由结点组成的集合。在马尔可夫随机场中表示为:某变量的所有邻接变量组成的集合。
马尔可夫毯的性质在局部马尔可夫性中得到了描述:如果给定某变量的马尔可夫毯,无向图中除去该变量及对应马尔可夫毯之外的所有变量与该变量条件独立。
马尔可夫毯的这种性质,可以将其视为一种屏障:只要该屏障被给定,意味着马尔可夫毯所包围的结点与马尔可夫毯外的其他结点相互独立。
但实际上,马尔可夫毯并不是马尔可夫随机场中特有的描述,在贝叶斯网络中,同样存在马尔可夫毯。
以某贝叶斯网络的结点
x
i
x_i
xi为例,假设该贝叶斯网络中一共包含
p
p
p个结点(对应数据集合
X
\mathcal X
X的
p
p
p个特征变量),结点
x
i
x_i
xi的条件概率 表示如下:
这里为了简化起见,使用
x
−
i
x_{-i}
x−i替代。即除去
x
i
x_i
xi的其他结点。
P
(
x
i
∣
x
1
,
⋯
,
x
i
−
1
,
x
i
+
1
,
⋯
,
x
p
)
=
P
(
x
i
∣
x
−
i
)
\mathcal P(x_i \mid x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_p) = \mathcal P(x_i \mid x_{-i})
P(xi∣x1,⋯,xi−1,xi+1,⋯,xp)=P(xi∣x−i)
我们将其展开:
x
i
x_i
xi设为‘离散型随机变量’,因此,它的积分形式是
∑
x
i
\sum_{x_i}
∑xi
P
(
x
i
∣
x
−
i
)
=
P
(
x
i
,
x
−
i
)
P
(
x
−
i
)
=
P
(
X
)
∑
x
i
P
(
X
)
\begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\mathcal P(x_i,x_{-i})}{\mathcal P(x_{-i})} \\ & = \frac{\mathcal P(\mathcal X)}{\sum_{x_i} \mathcal P(\mathcal X)} \end{aligned}
P(xi∣x−i)=P(x−i)P(xi,x−i)=∑xiP(X)P(X)
将贝叶斯网络因子分解 公式代入上式:
P
(
x
i
∣
x
−
i
)
=
∏
j
=
1
p
P
(
x
j
∣
x
p
a
(
j
)
)
∑
x
i
∏
j
=
1
p
P
(
x
j
∣
x
p
a
(
j
)
)
\begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\prod_{j=1}^p \mathcal P(x_j \mid x_{pa(j)})}{\sum_{x_i} \prod_{j=1}^p \mathcal P(x_j \mid x_{pa(j)})} \end{aligned}
P(xi∣x−i)=∑xi∏j=1pP(xj∣xpa(j))∏j=1pP(xj∣xpa(j))
观察分母,它的积分只限制
x
i
x_i
xi相关的结点,与
x
i
x_i
xi无关的结点都可视作常数,并与分子中的
x
i
x_i
xi无关结果消掉:
假设与
x
i
x_i
xi相关的结点集合为
Δ
\Delta
Δ,则有:
P
(
x
i
∣
x
−
i
)
=
∏
j
∉
Δ
P
(
x
j
∣
x
p
a
(
j
)
)
⋅
∏
j
∈
Δ
P
(
x
j
∣
x
p
a
(
j
)
)
∏
j
∉
Δ
P
(
x
j
∣
x
p
a
(
j
)
)
⋅
∑
x
i
∏
j
∈
Δ
P
(
x
j
∣
x
p
a
(
j
)
)
=
∏
j
∈
Δ
P
(
x
j
∣
x
p
a
(
j
)
)
∑
x
i
∏
j
∈
Δ
P
(
x
j
∣
x
p
a
(
j
)
)
\begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\prod_{j \notin \Delta} \mathcal P(x_j \mid x_{pa(j)}) \cdot \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})}{\prod_{j \notin \Delta} \mathcal P(x_j \mid x_{pa(j)}) \cdot \sum_{x_i} \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})} \\ & = \frac{\prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})}{\sum_{x_i} \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})} \end{aligned}
P(xi∣x−i)=∏j∈/ΔP(xj∣xpa(j))⋅∑xi∏j∈ΔP(xj∣xpa(j))∏j∈/ΔP(xj∣xpa(j))⋅∏j∈ΔP(xj∣xpa(j))=∑xi∏j∈ΔP(xj∣xpa(j))∏j∈ΔP(xj∣xpa(j))
至此,在求解
x
i
x_i
xi变量的条件概率时,将范围从特征集合中的所有结点 缩小到 与
x
i
x_i
xi相关的若干结点。
我们要判定哪些结点是否与
x
i
x_i
xi存在关联?
-
x
i
x_i
xi作为子节点,存在结点作为父结点指向
x
i
x_i
xi;
P ( x j = x i ∣ x p a ( j ) ) \mathcal P(x_j = x_i \mid x_{pa(j)}) P(xj=xi∣xpa(j)) -
x
i
x_i
xi作为父结点,存在结点使得
x
i
x_i
xi作为父结点指向该节点;
P ( x j ∣ x p a ( j ) = x i ) \mathcal P(x_j \mid x_{pa(j)} = x_i) P(xj∣xpa(j)=xi) - 贝叶斯网络的
V
\mathcal V
V型结构 中,
x
i
x_i
xi的子结点给定的条件下,
x
i
x_i
xi结点与另外的父结点
x
k
x_k
xk之间存在关联关系;
P ( x j ∣ x p a ( j ) = x i , x k ) \mathcal P(x_j \mid x_{pa(j)} = x_i,x_k) P(xj∣xpa(j)=xi,xk)
至此,贝叶斯网络中,某结点
x
i
x_i
xi的马尔可夫毯表示如下:
该图只是一个子图,延伸的部分略。

通过观察发现,贝叶斯网络的马尔可夫毯和马尔可夫随机场的存在一定区别:
i
5
,
i
6
i_5,i_6
i5,i6和
i
1
i_1
i1之间没有边相连接。
但如果将上述图像转化为道德图,观察转化结果:

观察发现,转换成道德图中,
i
0
,
i
2
,
i
3
,
i
4
,
i
5
,
i
6
i_0,i_2,i_3,i_4,i_5,i_6
i0,i2,i3,i4,i5,i6都与
i
1
i_1
i1组成了临接变量关系。
下一节将介绍推断(Inference)。
相关参考:
机器学习-周志华著
机器学习-概率图模型3-贝叶斯网络-Representation-D-Separation
机器学习-概率图模型5-马尔可夫随机场-Representation-条件独立性