1. 贝叶斯网络和因果图
在统计模型中,联合分布的计算公式为:
P ( x 1 , x 2 , . . . , x n ) = P ( x 1 ) ∏ i = 2 n P ( x i ∣ x i − 1 , . . . , x 1 ) P(x_1,x_2,...,x_n)=P(x_1)\prod_{i=2}^{n}{P(x_i|x_{i-1},...,x_1)} P(x1,x2,...,xn)=P(x1)∏i=2nP(xi∣xi−1,...,x1)
以上计算也称链式规则。
而根据马尔可夫假设:在一个有向无环图(DAG,Directed Acyclic Graph)中,给定节点X的所有父节点,节点X独立于其所有的非子代节点。可以将以上公式简写为:
P ( x ) = ∏ i ∈ I P ( x i ∣ x p a ( i ) ) P(x)=\prod_{i\in{I}}{P(x_i|x_{pa(i)})} P(x)=∏i∈IP(xi∣xpa(i)),其中 x p a ( i ) x_{pa(i)} xpa(i)代表 x x x的所有父节点,这个公式也称为贝叶斯网络因式分解。
例如,如果有如下图:
根据链式规则,联合概率分布计算为
P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 , x 1 ) P ( x 4 ∣ x 3 , x 2 , x 1 ) P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3,x_2,x_1) P(x1,x2,x3,x4)=P(x1)P(x2∣x1)P(x3∣x2,x1)P(x4∣x3,x2,x1),
接入马尔科夫假设后,图中X4节点在给定其父节点X3的情况下,独立于所有的非子结点,即独立于X1和X2,所以上述计算可简化为:
P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 , x 1 ) P ( x 4 ∣ x 3 ) P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3) P(x1,x2,x3,x4)=P(x1)P(x2∣x1)P(x3∣x2,x1)P(x4∣x3),
此外,最小假设(minimality assumption)在马尔科夫假设的基础上补充了一条内容,其内容包括:
(1)在一个DAG中,给定节点X的所有父节点,节点X独立于其所有的非子代节点。
(2)DAG图中相邻节点是相互依赖的。
最小假设在马尔可夫假设的基础上补充了节点之间的依赖关系。
以上模型探讨的都是不涉及因果关系的统计模型,因果边假设(causal edges assumption)将因果关系加入到DAG中。
因果边假设:在有向图中,每个父节点是其所有子节点的直接原因。
至此,可以得到以下流程图:
【补充】原因(causal)的定义:A variable X is said to be a causal of a variable Y is Y can change in response to changes in X.
2. 图的基本结构块
在图结构中,有三种基本结构块,分别是:chain(也叫headd to tail),fork(也叫tail to tail),immorality(也叫head to head)。
在关系图中,有一个重要的概念就是阻塞路径(blocked path),下面结合图的三种基本结构解释阻塞路径的概念。
(1)chain
链式图中,X1和X2之间存在一条路径,意味着他们之间是有依赖关系的,但是如果以X2为条件的话,他们之间的路径就会被阻塞,X1和X2就会变成相互独立的两个节点。证明如上图,我们得到了给定X2时,X1和X3的联合概率等于他们各自的概率相乘。
(2)fork
fork图与链式图一样,在给定X2的情况下,X1和X3相互独立。
(3)immorality
在immorality图中,X1和X3是相互独立的,而当给定X2(在这个图结构中X2被称为对撞机)时,X1和X3就不独立了。X1和X3的独立性证明如下图。
用一个例子说明给定X2时X1和X3不独立:
X 1 X_1 X1表示一个男人好看或是不好看, X 3 X_3 X3表示一个男人善良或是不善良, X 2 X_2 X2为 X 1 X_1 X1和 X 2 的 X_2的 X2的和,用来表示一个男人单身或者不单身。单看 X 1 X_1 X1和 X 3 X_3 X3,他们之间没有任何联系。但如果以X2为条件的话,情况就会不一样了。根据 X 2 X_2 X2,可以知道,目前好看且善良的男人都不单身,因此如果给定 X 2 = 0 X_2=0 X2=0即男人单身这一条件,男人的 X 1 X_1 X1和 X 2 X_2 X2属性就只存在三种情况:好看且不善良;不好看且善良;不好看且不善良。给定 X 2 = 0 X_2=0 X2=0时, X 1 X_1 X1和 X 3 X_3 X3就会产生联系,并且可以得到“好看的男人是渣男”这一关系。
总结以上三种情况,可以得到阻塞路径(boloked path)的定义:
如果满足以下任一条件,则节点X和Y之间的路径将被条件集Z(可能为空)阻塞:
(1) 在路径中,有chain …→W→… 或者叉子 …→W→… ,W在条件集中。
(2)在路径中存在对撞机W,且W和其任何子节点都不在条件集中。
3. 关联及因果关系的流动(The flow of association and causation)
如果觉得《因果推理(三):关联和因果在因果图中的流动》对你有帮助,请点赞、收藏,并留下你的观点哦!