8.2 조건부 독립(Conditional Independence)

PRML/Chapter 8. Graphical Models

8.2 조건부 독립(Conditional Independence)

초짜공대생 2022. 9. 16. 00:58

고등학교 확률과 통계 시간에, 독립과 종속이라는 개념에 대해서 배웠을 것이다.

어떤 사건이 일어날 때, 확률 변수 x와 y는 과연 관련이 있는가?

관련이 있으면 서로에 대해 종속, 그렇지 않으면 독립이라는 간단한 개념이다.

오늘 다룰 것은 만약 이러한 상관관계에 대해서 '조건'이라는 개념이 들어가게 된다면

어떠한 상황이 벌어지는가? 에 대해 알아보고자 한다.

여기 세 개의 변수 a, b, c가 존재한다. 그리고 b,c라는 확률 변수가 주어졌을 때,

a의 조건부 분포는 밑의 식과 같이 간단히 나타낼 수 있다.

$p(a|b,c)$

그렇다면 여기서 b는 a에 종속적이지 않은 변수라고 해보자.

결합 분포는 다음과 같이 나타낼 수 있다.

$p(a|b,c) = p(a|c)$

그렇다면 c라는 확률 변수 하나만 주어질 경우는 어떻게 될까?

$p(a,b|c) = p(a|b,c)p(b|c) = p(a|c)p(b|c)$

여기서 PRML 1장 Introduction에서 설명한 '확률의 곱의 법칙'을 사용하였다.

최종적으로 우변의 식을 보게 된다면, 변수 a, b는 독립이며 c는 그렇지 않다.

이와 관한 성질은 아래와 같이 표시한다.

$https://latex.codecogs.com/svg.image?a \perp b \mid c$

이렇게 조건부 독립에 대해 간단히 알아보았는데, 조건부 독립이라는 개념은 매우 중요하다.

변수들의 집합에 대한 결합 분포가 주어졌을 때, 조건부 분포들의 곱의 형태로 표현된 식(방향성 그래프)이

존재하고, 원칙적으로는 반복적으로 확률의 합과 곱의(sum and product) 법칙을 적용해 조건부 독립이 있는지

그러한 가능성을 확인하게 된다.

-> 결론적으로 곱의 법칙과 합의 법칙을 이용하여 결합 분포를 조건부 확률 분포로 전환하고

독립 여부를 하나하나 따져봐서 모델을 단순화하여 연산 과정을 줄인다. (조건부 독립이 중요한 이유)

하지만 이러한 과정은 너무 많이 걸린다. 이를 해결하기 위해 나온 것이 d 구분(d-separation)이다.

d 구분 (d-separation)에서 d는 directed, 즉 방향성을 의미한다.

조건부 독립을 찾기 위해, 위에 언급한 모델을 단순화 하고 연산 과정을 줄이기 위해서 이 과정을 사용한다.

간단히 세 가지 예시 그래프를 확인해보자.

예시 1. - tail to tail node

$https://latex.codecogs.com/svg.image?p(a, b, c)=p(a \mid c) p(b \mid c) p(c)$

이 식 어디서 많이 보지 않았는가?

PRML 8 - 1 베이즈 네트워크에서 나오는 결합분포의 인수분해 성질이다.

(~~설명은 8.- 1장 베이즈 네트워크를 참고하자. 식은 아래와 같다.~~)

$https://latex.codecogs.com/svg.image?p(\mathbf{x})=\prod_{k=1}^{K} p\left(x_{k} \mid p a_{k}\right)$

아무튼, p(a,b,c)라는 결합 분포가 존재할 때, 아무런 변수도 관측되지 않았을 때

우리는 'c' 변수를 주변화(marginalization)하여 a와 b라는 변수가 독립적인지 확인해 봐야 한다.

$https://latex.codecogs.com/svg.image?p(a, b)=\sum_{c} p(a \mid c) p(b \mid c) p(c) \neq p(a) p(b)$

자, 아무런 변수가 관측되지 않았을 때, 특히 'c'가 관측되지 않았을 때, 우리는 p(a)p(b)로 '분해'되'지

않음을 확인 할 수 있다. 이는 a와 b가 조건부 독립 성질을 만족하지 않았다는 것이다.

위의 그림을 표시하면 다음과 같다.

위의 가정은 모든 변수가 관측되지 않았을 때이다. 그렇다면 'c'라는 변수가 관측되면 어떨까?

c가 주어질 경우 결합 분포는 밑의 식과 같다.

$https://latex.codecogs.com/svg.image?p(a, b \mid c)=\frac{p(a, b, c)}{p(c)}=p(a \mid c) p(b \mid c)$

결론적으로 이는 다음과 같은 그래프로 표현이 되는데.

a에서 b로 가는 길을 c가 'block' 하였기 때문에 a와 b는 서로 독립적인 관계를 갖게 된다.

a와 b는 c의 tail이기 때문에 이러한 상황을 꼬리 대 꼬리(tail-to-tail) 관계라 부른다.

지금의 예시는 c가 a와 b의 head일 경우이다. 그렇다면 다른 케이스는 어떨까?

예시 2. - head-to-tail

$https://latex.codecogs.com/svg.image?p(a, b, c)=p(a) p(c \mid a) p(b \mid c)$

$https://latex.codecogs.com/svg.image?p(a, b)=p(a) \sum_{c} p(c \mid a) p(b \mid c)=p(a) p(b \mid a) \neq p(a) p(b)$

위의 결합분포와 c에 대해 주변화를 거친 식이다.

이 역시, p(a)p(b)로 인수분해 되지 않기에 c가 관측되지 않으면 a와 b는 조건부 독립 성질을 만족하지 않는다.

반대로 'c'가 주어진 경우는 밑의 식과 같다.

$https://latex.codecogs.com/svg.image?p(a, b \mid c)=\frac{p(a, b, c)}{p(c)}=\frac{p(a) p(c \mid a) p(b \mid c)}{p(c)}=p(a \mid c) p(b \mid c)$

tail-to-tail 노드와 마찬가지로 c가 관찰되어 a와 b가 서로 block 되었으면 이는 조건부 독립 성질을 만족한다.

예시 3. head-to-head

$https://latex.codecogs.com/svg.image?p(a, b, c)=p(a) p(b) p(c \mid a, b)$

$p(a, b)=p(a) p(b)$

결합분포와 c에 대한 주변화로, 이를 보면 위의 다른 두 예제들과 달리 관측되지 않았을 경우 a와 b는

서로 조건부 독립이다.

$https://latex.codecogs.com/svg.image?p(a, b \mid c)=\frac{p(a, b, c)}{p(c)}=\frac{p(a) p(b) p(c \mid a, b)}{p(c)} \neq p(a \mid c) p(b \mid c)$

또한 c가 발견되었을 경우, a와 b는 조건부 독립 성질을 만족하지 않는다.

최종적으로 d-separation을 한번 보자. 3번째 예시를 제외한 나머지는 c가 발견되면 모두 조건부 독립

성질을 만족한다. 왜 이러한 결과가 나왔는지 생각해 보자.

첫번째 예제는 c는 a와 b의 원인이며 a와 b는 c의 결과이다. (그래프의 방향을 보면 알 수 있다.)

결론적으로 c라는 원인이 제공이 된다면 a와 b는 다른 사건이므로 조건부 독립 성질을 만족하는데

c라는 원인이 제공되지 않는다면 a와 b가 관련이 있는지 없는지 모르기 때문에

조건부 성질을 만족하지 않는 것이다! 두번째도 마찬가지이다.

세번째 예제는 c가 a와 b의 결과이며 a와 b는 원인이므로 c가 발견되면 c에 a와 b가 원인을 제공하였으니

a와 b는 서로 연관되어 있으므로 조건부 독립이 아니라는 소리이다.

생각보다 d 구분(d-separation)은 매우 간단한 방법론이다.

*Markov Blanket or Markov boundary

D개의 노드를 가지는 방향성 그래프로 표현되는 결합분포가 존재한다. p(x1, ... ,xD)

여기서 우리는 변수 xi의 조건부 분포를 고려하고 싶으며 모든 남은 변수 xj가 xi가 아닌 조건이 된다고 가정해보자.

이러한 가정으로 인해 밑의 식과 같이 인수분해가 가능하다.

$https://latex.codecogs.com/svg.image?p\left(\mathbf{x}_{i} \mid \mathbf{x}_{j \neq i}\right)=\frac{p\left(\mathbf{x}_{1}, \ldots, \mathbf{x}_{D}\right)}{\int p\left(\mathbf{x}_{1}, \ldots \mathbf{x}_{D}\right) d \mathbf{x}_{i}}=\frac{\prod_{k} p\left(\mathbf{x}_{k} \mid p a_{k}\right)}{\int \prod_{k} p\left(\mathbf{x}_{k} \mid p a_{k}\right) d \mathbf{x}_{i}}$

이를 xi를 기준으로 그래프를 그리면 다음과 같다.

xi 노드를 중심으로 이 노드의 부모와 자식, 자식 노드에 연결된 자식의 부모 노드 집합을 Markov Blanket이라 하며

이러한 경우에 있어서 노드의 Markov blanket이 모두 관측되면 xi의 조건부 독립성이 성립되는 성질을 가지고 있다.

'PRML > Chapter 8. Graphical Models' 카테고리의 다른 글

8.4 그래프 모델에서의 추론 (Inference in Graphical Models)_(1) (0)	2022.09.28
8.3 마르코프 무작위장 (Markov network) (0)	2022.09.16
8.1 베이지안 네트워크 (Bayesian Network) (1)	2022.09.11

현재글8.2 조건부 독립(Conditional Independence)

Bayesian Network, 관측, kalman filter, PRML, 컨벡스 최적화, Markov, 칼만 필터, Chain Graph, junction tree, Sum product Algorithm, Potential Function, 확률, 그래프, Bipartite Graph, 베이즈 필터, Max Sum Algorithm, 노이즈, Markov Chain, Belief Propagation, Factor Graph,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

초짜공대생의공부노트