2. Probability

2.1. Introduction

확률적 표현에는 크게 두 가지 방식이 있다. 첫째는 빈도학파 방식으로, 이 관점에서는 확률은 사건의 장기적인 빈도를 나타낸다. 다른 학파는 베이지안 방식으로, 이 관점에서는 확률은 불확실성을 측정한다.

2.2. A brief review of probability theory

2.2.1. Discrete random variables

p(A)는 사건 A가 참일 확률이다. p(\bar{A}) = 1 - p(A)는 사건 A가 거짓일 확률이다. 사건 A의 상태 공간을 가산공간으로 확장한 것을 이산확률변수라고 한다. 이 때 p(X = x) = p(x)로 나타내며 p(x)확률질량함수(pmf)라고 한다. 0 \leq p(x) \leq 1을 만족한다.

이산확률분포의 예제: 균등분포와 축퇴분포.

2.2.2. Fundamental rules

2.2.2.1. Probability of a union of two events

사건 A 또는 B가 발생할 확률은 p(A \vee B) = p(A) + p(B) - p(A \wedge B)이다. 사건 A, B가 상호 배타적이면 p(A \vee B) = p(A) + p(B)가 된다.

2.2.2.2. Joint probabilities

사건 A, B의 결합 확률은 p(A, B) = p(A \wedge B) = p(A | B)p(B)이며 이는 곱셈 규칙이라고도 한다. 이 때의 결합 분포 p(A, B)에 대해 주변 분포p(A) = \sum_{b} p(A, B) = \sum_{b} p(A | B = b) p(B = b)가 된다. 주변분포 p(B)도 비슷하게 정해지며 이를 합 규칙 또는 전체 확률의 규칙이라고 한다. 곱셈 규칙은 p(X_{1 : D}) = p(X_{1}) p(X_{2} | X_{1}) \cdots p(X_{D} | X_{1 : D-1}) 로 확장될 수 있으며 이를 확률의 연쇄 법칙이라 한다.

2.2.2.3 Conditional probability

사건 B가 참인 경우에 사건 A가 발생할 조건부 확률은 다음과 같다.

p(A | B) = \frac{p(A, B)}{p(B)} , p(B) > 0

2.2.3 Bayes’ rule

조건부 확률과 곱셈 규칙과 합 규칙을 결합하면 베이즈 정리를 얻는다.

p(X = x | Y = y) = \frac{p(X = x, Y = y)}{p(Y = y)} = \frac{p(X = x)p(Y = y | X = x)}{\sum_{x'} p(X = x') p(Y = y| X = x')}

2.2.3.1. Example: medical diagnosis

유방조영상으로 유방암을 검진한다고 하자. 이 때 검사의 민감도(암이 있을 때 양성 판정일 확률, p(x = 1 | y = 1))은 0.8이라고 하자. 이것은 양성 판정일 때 암일 확률이 80%라는 것이 아니다. 유방암일 사전 확률 p(y = 1) = 0.004를 무시해 기본 요율 오류에 빠졌기 때문이다. 또한 검사가 거짓 양성일 확률을 고려해야 한다. 이를 p(x = 1 | y = 0) = 0.1이라 하자. 이러면 베이스 정리에 의해 p(y = 1 | x = 1) = 0.031이 되어, 검사가 양성일 때 암일 확률은 3.1%밖에 되지 않는다.

2.2.3.2. Example: Generative classifiers

의료 검진의 예를 확장해 특성 벡터 p(\mathbf{x})를 다음과 같이 분류할 수 있다.

p(y = c | \mathbf{x}) = \frac{p(y = c)p(\mathbf{x} | y = c)}{\sum_{c'} p(y = c' | \mathbf{\theta})p(\mathbf{x} | y = c')}

이를 발생적 분류기라고 하며, 클래스 사전확률 p(y = c)를 이용해 클래스 조건부 분포 p(\mathbf{x} | y = c)를 생성한다.

2.2.4. Independence and conditional independence

X, Y의 결합분포가 두 주변분포의 곱이 되어 p(X, Y) = p(X)p(Y)일 때 X와 Y를 주변독립 또는 비조건부독립이라 하며 X \perp Y로 표기한다. 안타깝게도 이런 경우는 적다. 많은 변인들은 상호 영향을 미치기 때문이다. 대신 더 흔한 상황으로 X와 Y의 조건 Z에 대한 조건주변분포의 곱이 조건결합분포가 될 때 X, Y가 Z에 대해 조건부독립이라 한다. 이는 X \perp Y | Z, 즉 p(X, Y | Z) = p(X | Z) p(Y | Z)로 나타낸다. 이 때 다음이 성립한다.

Theorem 2.3.1. X \perp Y | Zp(z) > 0인 모든 x, y, z에 대해 어떤 g, h가 존재해서 p(x, y | z) = g(x, z) h(y, z)이 됨과 동치이다.

2.2.5. Continuous random variables

사건 A의 상태 공간이 연속적일 때는 연속확률변수가 된다. 이 때 p(a < X \leq b) = p(X \leq b) - p(X \leq a)로 구할 수 있다. 누적분포함수(cdf) F(q) = p(X < q)로 정의하면 이는 단조 비감소 함수가 되는데, 이의 도함수 f(x) = \frac{d}{dx}F(x)  확률밀도함수(pdf)라 한다. 이 때 p(a < X \leq b) = \int_{a}^{b} f(x) dx  가 된다.

예를 들어 균등분포 \mathrm{Unif}(a, b)의 확률밀도함수는 \frac{1}{b - a} \mathbf{1}_{a \leq x \leq b}  가 된다.

2.2.6. Quantiles

누적분포함수는 단조 비감소 함수이므로 역함수가 존재한다. 이 때 F^{-1}(\alpha)\alpha 누적분포함수는 단조 비감소 함수이므로 역함수가 존재한다. 이 때 F^{-1}(\alpha)\alpha 변위수라고 한다. 0.5 변위수를 중앙값이라고 하며 0.25, 0.75 변위수를 사분위수라고 한다. 이는 꼬리 지역 확률을 구하는 데도 쓸 수 있다.

사분위수의 예제.

2.2.7. Mean and variance

분포의 평균 또는 기대값\mu로 나타내어진다. 이산확률변수에 대해서는 \mathbb{E}[X] = \sum_{x \in \mathcal{X}} x p(x)  가 되며 연속확률변수에 대해서는 \mathbb{E}[X] = \int_{x \in \mathcal{X}} x p(x)  가 된다. 분포의 분산은 그 분포가 얼마나 분산되었는지를 나타내며 \sigma^{2}로 표현한다. \mathrm{var}[X] = \mathbb{E}[(X - \mu)^{2}] = \mathbb{E}[X^2] - \mu^{2}가 된다. 표준편차\mathrm{std}[X] = \sqrt{\mathrm{var}[X]} 이다.

2.3. Some common discrete distributions

2.3.1. The binomial and Bernoulli distribution

앞면이 나올 확률이 \theta인 동전을 n번 던졌을 때 앞면이 나온 횟수 X \in \{0, \cdots, n\}이항 분포를 따른다고 하며 X \sim \mathrm{Bin}(n, \theta)로 쓴다. 확률질량함수는 \mathrm{Bin}(k | n, \theta) = \binom{n}{k} \theta^{k}(1 - \theta)^{n - k}  가 된다. 이 때 \binom{n}{k} = \frac{n!}{(n - k)!k!}  이항계수이다. 평균은 n \theta, 분산은 n \theta (1-\theta)가 된다. 동전을 한 번 던질 때는 베르누이 분포가 되며 이는 이항 분포가 n = 1인 케이스이다.

θ=0.25, 0.9에서의 이항 분포.

2.3.2. The multinomial and multinoulli distributions

동전이 아니라 면이 K개인 주사위를 던질 때에는 다항 분포가 된다. 면 j가 나온 회수를 x_j라고 할 때 \mathbf{x} = (x_{1}, \cdots, x_{K}의 확률질량함수는 다음과 같다.

\mathrm{Mu}(\mathbf{x} | n, \mathbf{\theta}) = \binom{n}{x_{1}, \cdots , x_{K}} \prod_{j=1}^{K} \theta_{j}^{x_{j}}

이 때 \binom{n}{x_{1}, \cdots , x_{K}} = \frac{n!}{x_{1}! \cdots x_{K}!}  다항계수이다.

n = 1인 특이 케이스는 더미 인코딩, 원-핫 인코딩이라고도 불리며 이 때의 확률질량함수는 범주 분포, 멀티누이 분포 또는 이산 분포라고 한다. \mathrm{Cat}(x | \mathbf{\theta})로 나타낸다.

2.3.2.1. Application: DNA sequence motifs

다항 분포의 용례 중 하나는 시퀀스 로고를 이용한 생체 시퀀스 분석이다. 이를 통해 어떤 염기 서열이 다음에 나올지를 예측할 수 있으며 이 때 사용된 분포를 모티프라 한다. 각각 위치에 어떤 염기가 나올지를 예측하는 분포는 컨센서스 순열이라 한다.

2.3.3. The Poisson distribution

X = \{0, 1, \cdots\}의 확률질량함수가 \lambda > 0에 대해 e^{-\lambda} \frac{\lambda^{x}}{x!}  를 만족할 때 푸아송 분포를 따른다고 하며 \mathrm{Poi}(x | \lambda)로 나타낸다.

λ=1000, 10000에서의 푸아송 분포.

2.3.4. The empirical distribution

데이터 \mathcal{D} = \{x_{1}, \cdots, x_{n}\}에 대해 실측 분포 또는 실측 측도를 다음과 같이 정의한다.

p_{\mathrm{emp}}(A) = \frac{1}{N}\sum_{i=1}^{N} \delta_{x_{i}}(A)

이 때 \delta_{x}(A) = \mathbf{1}_{A}디랙 측도이다. 실측 분포는 데이터에 대해 히스토그램을 만든 것으로 볼 수 있다.

2.4. Some common continuous distribution

2.4.1. Gaussian (normal) distribution

통계학과 기계학습에 가장 널리 쓰이는 분포는 가우시안(정규) 분포이다. \mu가 평균, \sigma^{2}가 분산일 때 확률밀도함수는 다음과 같다.

\mathcal{N}(x | \mu, \sigma^{2}) = \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{1}{2 \sigma^{2}} (x - \mu)^{2}}

X \sim \mathcal{N}(0, 1)일 때 이를 표준정규분포라 한다. 정규분포의 확률밀도함수는 종 모양 곡선이 된다. 정규 분포의 분산의 역수를 정밀도라 하며 \lambda = \frac{1}{\sigma^{2}}로 나타낸다. 정규분포의 누적분포함수는 오차 함수(erf)로 나타낼 수 있으며 다음과 같다.

\Phi(x; \mu, \sigma^{2}) = \int_{-\infty}^{x}\mathcal{N}(z | \mu, \sigma^{2}) dz = \frac{1}{2}(1 + \mathrm{erf}(\frac{z}{\sqrt{2}}))

2.4.2. Degenerate pdf

\sigma^{2} \to 0인 경우에, 정규분포는 디랙 델타 함수가 된다. 이는 \delta(0) = \infty, \delta(x) = 0 \forall x \neq 0, \int_{-\infty}^{\infty} \delta(x) dx = 1  을 만족하는 함수이다. 유용한 특성은 거르기 특성이라고 불리는 특성으로 \int_{-\infty}^{\infty} f(x) \delta(x - \mu) dx = f(\mu)  를 만족한다.

2.4.3. The Student’s t distribution

정규분포의 문제점은 경계값에 취약하다는 점이다. 이를 보완하는 분포로는 스튜던트의 t 분포가 있다. 확률밀도함수는 다음과 같다.

\mathcal{T}(x | \mu, \sigma^{2}, \nu) \propto (1 + \frac{1}{\nu}(\frac{x - \mu}{\sigma})^{2})^{-\frac{\nu + 1}{2}}

이 때 \mu는 평균이자 최빈값, \sigma^{2} > 0은 비례 인자, \nu > 0자유도이다. 분산은 \frac{\nu \sigma^{2}}{\nu - 2}  가 되며 \nu > 2일 때만 정의된다. 평균은 \nu > 1일 때만 정의된다. \nu = 1일 때는 코시 분포로렌츠 분포라 한다. 보통은 \nu = 4를 사용한다. \nu >> 5인 경우에는 정규분포에 매우 근접해져 굳이 t 분포를 사용할 이유가 없다.

가우스-라플라스-스튜던트 분포의 pdf, 로그 pdf.

2.4.4. The Laplace distribution

꼬리가 두꺼운 다른 분포는 라플라스 분포, 또는 양방향 지수 분포가 있다. 확률밀도함수는 다음과 같다.

\mathrm{Lap}(x | \mu, b) = \frac{1}{2b} e^{-\frac{|x - \mu|}{b}}

이 때 \mu는 지역 인자이자 평균, 최빈값이고, b > 0은 비례 인자이다. 분산은 2b^{2}가 된다.

이상치에 대한 가우스/스튜던트/라플라스 분포의 효과.

2.4.5. The gamma distribution

감마 분포는 양의 실수를 범위로 갖는 확률변수를 나타낼 때 쓰이는 분포이다. 모양 인자 a > 0, 비율 인자 b > 0에 대해 다음과 같은 확률밀도함수를 가진다.

\mathrm{Ga}(T | a, b) = \frac{b^{a}}{\Gamma(a)}T^{a-1}e^{-Tb}  이 때 \Gamma(x) = \int_{0}^{\infty} u^{x-1}e^{-u} du  는 감마 함수이다. 평균은 \frac{a}{b}  , 최빈값은 \frac{a-1}{b}  , 분산은 \frac{a}{b^2}  이다.

감마 함수의 여러 특수 케이스가 있는데 a = 1일 때는 지수 분포, a가 정수일 때는 에를랭 분포, a = \frac{\nu}{2}, b = \frac{1}{2}  일 때는 카이제곱 분포가 된다. 가우시안 확률변수의 제곱의 합은 카이제곱 분포를 따른다.

X \sim \mathrm{Ga}(a, b)일 때 \frac{1}{X} \sim \mathrm{IG}(a, b)  역감마 분포라고 하며 확률밀도함수는 다음과 같다.

\mathrm{IG}(x | a, b) = \frac{b^{a}}{\Gamma(a)}x^{-(a+1)}e^{-b/x}

평균은 \frac{b}{a-1}  이며 a > 1일 때 정의된다. 최빈값은 \frac{b}{a+1}  , 분산은 \frac{b^{2}}{(a-1)^2(a-2)}  이며 a > 2일 때 정의된다.

여러 감마 분포 / 강우 데이터의 감마 분포 피팅.

2.4.6. The beta distribution

베타 분포는 [0, 1] 사이의 값을 모델링하는 분포이다. 확률밀도함수는 다음과 같다.

\mathrm{Beta}(x | a, b) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}

이 때 B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)  }은 베타 함수이다.

평균은 \frac{a}{a+b}  , 최빈값은 \frac{a-1}{a+b-2}  , 분산은 \frac{ab}{(a+b)^2(a+b+1)}  이다.

여러 베타 분포.

2.4.7. Pareto distribution

파레토 분포는 다음과 같다.

\mathrm{Pareto}(x | k,m) = km^{k}x^{-(k+1)} \mathbf{1}_{x \geq m}

이는 x가 어떤 상수 m보다 크기는 하지만 크게 크지는 않는 상황을 모델링할 때 쓰인다. k \to \infty일 때에는 \delta(x - m)으로 수렴한다.

평균은 \frac{km}{k-1}  이며 k>1일 때 정의된다. 최빈값은 m이다. 분산은 \frac{m^2k}{(k-1)^{2}(k-2)}  이며 k > 2일 때 정의된다. 파레토 분포는 지수법칙 또는 지프의 법칙을 따르는데 이것은 꼬리가 긴 데이터를 모델링할 때 좋다.

여러 파레토 분포와 로그 스케일 pdf.

2.5. Joint probability distributions

결합 확률분포는 D > 1 변수에 대해 p(x_1, \cdots, x_D)의 형태를 하고 있다.

2.5.1. Covariance and correlation

두 확률변수 X, Y의 공분산은 X, Y 사이의 선형 관계를 측정한다.

\mathrm{cov}[X, Y] = \mathbb{E}[X - \mathbb{E}[X]] \mathbb{E}[Y - \mathbb{E}[Y]]  =  \mathbb{E}[XY]  - \mathbb{E}[X] \mathbb{E}[Y]

\mathbf{x}가 d차원 벡터이면 공분산 행렬이 다음과 같이 정해진다.

\mathrm{cov}[\mathbf{x}] = \mathbb{E}[\mathbf{x} - \mathbb{E}[\mathbf{x}]] \mathbb{E}[(\mathbf{x} - \mathbb{E}[\mathbf{x}])^{T}]

공분산은 기본적으로 0과 무한대 사이이지만 상관 계수 \mathrm{corr}[X, Y] = \frac{\mathrm{cov}[X, Y]}{\mathrm{var}[X]\mathrm{var}[Y]} 로 정규화할 수 있다. \mathbf{x}에 대해 각각의 항목에 대한 상관 계수로 만든 행렬을 상관 행렬이라 한다. 이 때 상관 계수의 범위는 -1과 1 사이가 된다.

상관 계수가 1이면 선형 관계가 있는 것이다. 독립 변수면 상관 계수가 0이다. 반대는 성립하지 않는다: 상관 계수가 0이라고 해서 독립인 것은 아니다.

2.5.2. The multivariate Gaussian

다변수 가우시안(다변수 정규분포, MVN)은 연속확률변수에 대해 가장 폭넓게 사용되는 결합확률분포이다. 확률밀도함수는 \mathcal{N}(\mathbf{x} | \mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{\frac{D}{2}} |\mathbf{\Sigma}|^{\frac{1}{2}}} e^{-\frac{(\mathbf{x} - \mathbf{\mu}) ^{T} \mathbf{\Sigma}^{-1}(\mathbf{x} - \mathbf{\mu}) }{2}} 이 된다. \mathbf{\mu}는 평균, \mathbf{\Sigma} 는 공분산 행렬이다. 가끔 공분산 행렬 대신 정밀도 행렬(집중도 행렬) \mathbf{\Lambda} = \mathbf{\Sigma}^{-1} 을 쓰기도 한다. 분모는 표준화 계수로서 적분값이 1이 됨을 보장한다. 공분산 행렬 중 가장 간단한 형태는 구면 또는 등방 공분산 행렬인 \mathbf{\Sigma} = \sigma^{2} \mathbf{I}_{D} 로서 자유도가 1이다.

여러 종류의 공분산 행렬에 따른 2D 가우시안.

2.5.3. Multivariate Student t distribution

MVN의 경계값에 취약한 점을 보완하는 대안으로 다변수 스튜던트 t 분포가 있다. 확률밀도함수는 \mathcal{T}(\mathbf{\mu}, \mathbf{\Sigma}, \nu) = \frac{ \Gamma(\frac{\nu + D}{2}) }{\Gamma(\frac{\nu}{2})} | \pi \mathbf{V}|^{-\frac{1}{2}} [1 +  (\mathbf{x} - \mathbf{\mu}) ^{T} \mathbf{V}^{-1}  (\mathbf{x} - \mathbf{\mu})]^{-\frac{\nu + D}{2}} 이다. \mathbf{\Sigma} 는 스케일 행렬 (공분산이 아니다), 이며 \mathbf{V} = \nu \mathbf{\Sigma}이다. \mathbf{\nu}가 작아질수록 꼬라부분이 두꺼워지며 무한대로 가면 가우시안으로 수렴한다. 평균과 최빈값은 \mathbf{\mu} 이고 공분산은 \frac{\nu}{\nu - 2} \mathbf{\Sigma} 이다.

2.5.4. Dirichlet distribution

베타 분포의 다변수 확장은 디리클레 분포이다. 이는 확률 심플렉스 S_{K} = \{ \mathbf{x} : 0 \leq x_{k} \leq 1, \sum_{k=1}^{K} x_{k} = 1 \} 에서 정의되며 확률밀도함수는 \mathrm{Dir}(\mathbf{x} | \mathbf{\alpha}) = \frac{1}{B(\mathrm{\alpha})} \prod_{k=1}^{K} x_{k}^{\alpha_{k} -1} \mathbf{1}_{S_{K}} 이다. 여기서 B(\mathbf{\alpha}) = \frac{\prod_{k=1}^{K} \Gamma(\alpha_{k}) }{\Gamma(\alpha_{0})} 는 다차원 베타 함수이며 \alpha_{0} = \sum_{k=1}^{K} \alpha_{k} 는 분포의 세기를 나타내고 \alpha_{k}는 최고점이 어디서 나타나는지를 결정한다.

x_{k}의 평균은 \frac{\alpha_{k}}{\alpha_{0}}, 최빈값은 \frac{\alpha_{k}-1}{\alpha_{0}-K}, 분산은 \frac{\alpha_{k}(\alpha_{0} - \alpha_{k})}{\alpha_{0}^{2}(\alpha_{0} + 1)} 이다.

디리클레 분포의 플롯 / 히스토그램.

2.6. Transformations of random variables

확률변수 \mathbf{x} \sim p()에 대해 \mathbf{y} = f(\mathbf{x})일 때 \mathbf{y}의 분포는 뭐가 될까?

2.6.1. Linear transformations

선형 관계 \mathbf{y} = f(\mathbf{x}) = \mathbf{A}\mathbf{x} + \mathbf{b}가 성립한다고 하자. 이 때 \mathbb{E}[\mathbf{y}] = \mathbf{A}\mathbf{\mu} + \mathbf{b}이다. 이를 기대값의 선형성이라 한다. 공분산은 \mathrm{cov}[\mathbf{y}] = \mathbf{A} \mathbf{\Sigma} \mathbf{A}^{T} 이다.

선형 관계만으로는 \mathbf{y}의 평균과 공분산만 알 수 있고 정확한 분포를 알 수는 없다. 그것은 \mathbf{x} 가 가우시안(즉 \mathbf{y} 도 가우시안)일 때만 가능하다.

2.6.2. General transformation

X가 이산확률변수이면 p_{y}(y) = \sum_{x : f(x) = y} p(x)가 된다.

X가 연속확률변수이면 p_{y}(y) = p_{x}(x) |\frac{dx}{dy}|가 된다. 이를 변수 변환 공식이라 한다.

2.6.2.1. Multivariate change of variables

다변수일 때의 변수변환 공식은 자코비안 행렬 (\mathbf{J}_{\mathbf{x} \to \mathbf{y}})_{ij} = \frac{\partial y_{i}}{\partial x_{j}} 을 활용한다. 이 때 | \mathrm{det} \mathbf{J}|는 변수 변환 시에 단위 큐브의 부피의 변화율을 측정하며 p_{y}(\mathbf{y}) = p_{x}(\mathbf{x}) |\mathrm{det} \mathbf{J}_{\mathbf{x} \to \mathbf{y}} |이 된다.

2.6.3 Central limit theorem

평균과 분산이 \mu, \sigma^{2}로 동일하고 확률밀도함수가 p(x_{i})로 주어지고 독립적이고 동일하게 분포된(i.i.d.) N개의 확률변수 (가우시안일 필요는 없다)가 있다고 하자. S_{N} = \sum_{i=1}^{N}X_{i} 를 확률변수의 합이라고 할 때 N이 증가할 수록 해당 분포는 p(s) = \frac{1}{\sqrt{2 \pi N \sigma^{2}}} e^{-\frac{(s - N\mu)^{2}}{2N\sigma^{2}}} 로 수렴한다. 즉, \frac{\sqrt{N}(\bar{X} - \mu)}{\sigma} 의 분포는 정규분포로 수렴한다. 이를 중심 극한 정리라 한다.

중심 극한 정리의 예

2.7. Monte Carlo approximation

실측 분포를 통해 실제 분포를 추정하는 것을 몬테 카를로 근사라 한다.

2.7.1. Example: change of variables, the MC way

x \sim \mathrm{Unif}(-1, 1)이고 y = x^{2}라고 하자. 이 때 p(x)의 많은 샘플로부터 p(y)를 근사할 수 있다.

1D 변수 변환 예제.

2.7.2. Example: estimating π by Monte Carlo approximation

f(x, y) = \mathbf{1}_{x^2 + y^2  \leq r^{2}}이고 p(x), p(y)를 [-r, r]에서의 균등 분포라고 하면 원의 넓이는 4r^{2} \int \int f(x, y) p(x)p(y) dx dy \approx \frac{4r^{2}}{S} \sum_{s=1}^{S} f(x_{s}, y_{s}) 가 되므로 \pi를 근사할 수 있다.

몬테 카를로 적분을 통한 π의 근사.

2.7.3. Accuracy of Monte Carlo approximation

몬테 카를로 근사의 정확도는 표본 수에 따라 증가한다. 중심극한정리에 의해 P\{\mu - 1.96 \frac{\hat{\sigma}}{\sqrt{S}} \leq \hat{\mu} \leq  \mu + 1.96 \frac{\hat{\sigma}}{\sqrt{S}} \} \approx 0.95 가 성립한다. 이 때 \frac{\hat{\sigma}}{\sqrt{S}}  표준 오차라 한다.

가우시안 분포의 10/100개 표본의 히스토그램, pdf 근사.

2.8. Information theory

정보론데이터를 압축 (소스 코딩) 하는 것과 관련이 있다. 자료를 보관하고 전송할 때 에러를 보정 (채널 코딩) 하는 것이 중요하기 때문이다.

2.8.1. Entropy

확률변수의 엔트로피 \mathbb{H}(X) = -\sum_{k=1}^{K} p(X = k) \mathrm{log}_{2} p(X = k) 는 불확실성의 측정도이다. 로그의 밑이 2인 이유는 자료형을 비트로 코딩하기 때문이다. e인 경우에는 내트로 코딩하는 경우이다. 이진 확률 변수인 경우엔 엔트로피는 -(\theta \mathrm{log}_{2} \theta + (1 - \theta) \mathrm{log}_{2}(1 -\theta) ) 가 되며 이를 이진 엔트로피라 한다.

베르누이 분포의 엔트로피.

2.8.2. KL divergence

두 확률분포 p, q간의 다름을 측정하는 지표는 컬백-리블러 발산 (KL 발산) 또는 상호 엔트로피로서 \mathbb{KL}(p \parallel q) = \sum_{k=1}^{K} p_{k} \mathrm{log} \frac{p_{k}}{q_{k}} =  \sum_{k=1}^{K} p_{k} \mathrm{log} p_{k} -  \sum_{k=1}^{K} p_{k} \mathrm{log} q_{k} = -\mathbb{H}(p) + \mathbb{H}(p, q) 로 나타내어진다. 여기서 \mathbb{H}(p, q)교차 엔트로피로서 분포 p로부터 샘플링되는 데이터를 모델 q를 통해 인코딩할 때 추가로 필요한 평균적인 비트수이고 p에 대한 엔트로피는 참 모델을 나타낼 때 필요한 평균적인 비트수이다. 즉 KL 발산은 분포 p로부터 샘플링되는 데이터를 모델 q를 통해 인코딩할 때 필요한 평균적인 비트수가 된다. 다음이 성립하며 젠센의 부등식으로 증명한다.

Theorem 2.8.1. (정보 부등식) \mathbb{KL}(p \parallel q) \geq 0이며 등식 성립 조건은 p = q와 동치이다.

이 부등식으로 도출되는 중요한 결론 중 하나는 최대 엔트로피를 갖는 이산 분포는 균등 분포라는 것이다. 이는 라플라스의 이유 불충분의 원리라고도 한다.

2.8.3. Mutual information

두 확률분포 X, Y에 대해 하나를 아는 것이 다른 분포에 대한 지식을 얼마나 제공해주는지를 알려주는 척도를 상호 정보(MI)라 하며 다음과 같이 정의된다.

\mathbb{I}(X; Y) = \mathbb{KL}(p(X, Y) \parallel p(X)p(Y)) = \sum_{x}\sum_{y} p(x, y) \mathrm{log} \frac{p(x,y)}{p(x)p(y)}

이 때 \mathbb{I}(X; Y) = \mathbb{H}(X) - \mathbb{H}(X | Y) =   \mathbb{H}(Y) - \mathbb{H}(Y | X) \geq 0이며 등호 성립은 p(X, Y) = p(X)p(Y), 즉 X와 Y가 독립인 것과 동치이다. 이 때 \mathbb{H}(X | Y) = \sum_{x} p(x) \mathbb{H}(Y | X=x)는 조건부 엔트로피이다.

상호 정보와 관련 있는 척도로 점별 상호 정보가 있다. 이는 \mathrm{PMI}(x, y) = \mathrm{log}\frac{p(x, y)}{p(x)p(y)} 로 정의하며 두 사건이 독립적으로 같이 발생할 확률과 두 사건이 같이 발생할 확률의 비율을 나타낸다.

2.8.3.1. Mutual information for continuous random variables

위의 상호 정보 식은 이산확률변수에 대해 정의된다. 연속확률변수에 대해서는 먼저 이산화 또는 양자화한 뒤 사용해야 한다. 양자화 방식에 따라 상호정보량이 달라질 수 있는데 최대의 상호정보량을 얻는 상호정보계수는 다음과 같다.

\mathrm{MIC} = \mathrm{max}_{x, y : xy < B} \frac{\mathrm{max}_{G \in \mathcal{G}(x,y)} \mathbf{I}(X(G) ; Y(G))}{\mathrm{log}\mathrm{min}(x,y)}

이 때 \mathcal{G}(x,y)는 양자화된 x, y의 범위, X(G)와 Y(G)는 양자화된 X/Y 분포이다.

요점 정리

  • 머신 러닝과 확률론의 밀접한 관계
  • 확률론의 기본적 개념
  • 기본적 이산 분포
  • 기본적 연속 분포
  • 결합 확률 분포
  • 확률 분포간의 변환
  • 샘플링: 몬테 카를로 근사
  • 정보론의 기본적 개념