수리통계학 3. Moment Generating Function

Moment Generating Function이란?

이번 게시물에서는 적률생성함수(MGF)에 대해 설명하겠습니다. 통계학에서 어떤 데이터의 ‘확률분포’를 알아내는 것이 가장 중요한 태스크 중 하나입니다. 이 확률분포를 알 수 있게 해주는 방법 중 하나로 적률생성함수가 쓰입니다.

적률(Moment)

통계학에서 적률이란 확률변수를 요약한 숫자라고 볼 수 있습니다.
물리학에서도 적률이라는 개념을 사용하는데요, 물리학에서의 정의는 ‘어떤 점을 중심으로 회전하려는 힘의 작용(물리량)’을 적률로 구할 수 있다고 합니다.
통계학에서 적률은 어떤 점(t)을 중심으로 하는 확률분포의 특성을 설명합니다.
확률변수 X에 대해, 원점에 대한 k차 적률을 \(E(X^k)\)라고 합니다.

다시 말해, 적률은 확률이 어떻게 분포하는지를 설명해주는 척도라고 이해할 수 있습니다.

적률생성함수(Moment Generating Function)

적률생성함수는 확률분포를 유일(unique)하고 완전(complete)하게 결정합니다. 하나의 MGF에 대응되는 확률분포는 오직 하나입니다. 우리는 MGF를 통해 특정 확률분포의 평균과 분산을 구하여 확률분포의 모양을 알아낼 수 있습니다.

왜 적률”생성”함수인가?

아래에 나올 정의를 보면, 적률생성함수는 \(M_x(t)\)라는 식으로 표현됩니다. 이 식을 한 번 미분하면 1차 적률, 두 번 미분하면 2차 적률을 구할 수 있습니다.
\(M_x(t)\) 자체가 적률이 아니라, 이 식을 사용하여 적률을 구하는 것이기 때문에 적률생성함수라고 부릅니다.

정의

\[M_x(t)=E(exp(tx))=\left\{\begin{array}{l} \sum e^{tx} P_x(x) \\ \int e^{t x} f_x(x) d t \end{array}\right.\]

E(x)는 평균을 뜻하는데, 이를 이산확률분포/연속확률분포의 평균의 정의에 따라 각각 정리한 식입니다.

우리는 매클로린 급수를 이용해 mgf를 다항식 꼴로 나타낼 수 있습니다.

우리는 기본적으로 평균이 0인 확률분포를 고려하기 때문에 t에 0을 대입합니다.
빨간색 글씨를 보면, Mx(t)를 한 번 미분하고 0을 대입한 값이 1차 적률, 두 번 미분하고 0을 대입한 값이 2차 적률입니다. t=0일 때, n차 적률은 \(E(x^n)\) 입니다.

k차 적률

평균이 0이 아닌 확률분포의 적률을 계산하는 방법입니다. 위에서 n차 적률은 \(E(x^n)\) 인 것을 알아냈습니다. 이를 평균 c만큼 이동시켜 계산하면 다음의 식이 나옵니다. \[E((x-c)^k)\]

c(평균)=0 이면 원점에 대한 k차 적률이고, c= \(\mu\) 이면 k차 중심적률입니다. 평균을 중심으로 존재하는 확률분포의 특성을 알아내기 때문에 “중심적률”이라고 부릅니다.

평균과 분산

평균은 1차 적률이고, 분산은 2차 중심적률입니다. t=0일 때, 평균은 \(M'(0)\), 분산은 \(E(X^2)-E(X)^2=M''(0)-M'(0)^2\)입니다. \[\begin{aligned} & E(x)=\mu=M_x^{\prime}(0) \\ & \begin{aligned} E\left((x-\mu)^2\right)=\operatorname{Var}(x) & =E\left(x^2\right)-\{E(X)\}^2 \\ & =M_x^{\prime \prime}(0)-\left(M_x^{\prime}(0)\right)^2 \end{aligned} \end{aligned}\]

유도식

평균과 분산이 어떻게 나오게 되는지 식을 유도해보겠습니다. 위에서 언급했듯이, mgf는 다음과 같이 정의됩니다. \[M(t)=E\left(e^{t X}\right)\]

\(E(X)=\sum_x x p_X(x)\) 또는 \(E(X)=\int_{-\infty}^{\infty} x f_X(x) d x\)의 X 자리에 \(e^{t X}\)를 넣으면 다음의 식이 나오게 됩니다.

주의할 점은, mgf는 t에 대한 함수라는 것입니다. 따라서 미분을 할 때도 t에 대해 미분을 해주어야 합니다. \[\begin{aligned} M^{\prime}(t)=\frac{d M(t)}{d t} & =\frac{d}{d t} \int_{-\infty}^{\infty} e^{t x} f_X(x) d x \\ & =\int_{-\infty}^{\infty} \frac{d}{d t} e^{t x} f_X(x) d x=\int_{-\infty}^{\infty}\left(\frac{d}{d t} e^{t x}\right) \cdot f_X(x) d x \\ & =\int_{-\infty}^{\infty} x e^{t x} f_X(x) d x \end{aligned}\]

연속확률변수일 경우도 마찬가지로 다음의 결과가 도출됩니다. \[M^{\prime}(t)=\sum_x x e^{t x} p_X(x)\]

위의 식에 t=0을 대입하면, E(X)의 식과 동일해집니다. 즉 mgf를 한 번 미분한 식에서, t=0일 경우 X의 평균을 구할 수 있는 것입니다.

이번에는 mgf를 두 번 미분해보겠습니다. \[M^{\prime \prime}(t)=\int_{-\infty}^{\infty} x^2 e^{t x} f_X(x) d x \text { or } M^{\prime \prime}(t)=\sum_x x^2 e^{t x} p_X(x)\]

즉, 다음과 같은 식이 나옵니다. \[M^{\prime \prime}(0)=E\left(X^2\right)\]

우변의 식은 \(E(X)\) 식에서 \(X\) 대신 \(X^2\)를 넣은 식이죠. 따라서 mgf를 두 번 미분한 식에서, t=0일 경우 X의 분산을 구할 수 있습니다.(\(E\left(X^2\right)-E(X)^2\))

최종적으로, m이 양수일 때, 다음과 같이 정의할 수 있습니다. \[M^{(m)}(0)=E\left(X^m\right)\]

자주 등장하는 적률생성함수

예시

확률변수 X의 mgf가 \(M(t)=(1-t)^{-1}\) for t<1 이라고 할 때, 평균과 분산을 구해보도록 하겠습니다.
mgf를 한 번 미분하면 \((1-t)^{-2}\), 두 번 미분하면 \(2(1-t)^{-3}\)가 나옵니다. t=0일 때, E(X)=1, Var(X)=1 를 구할 수 있습니다.

추가로 알아두어야 할 정리

Let X be a random variable and let m be a positive integer. If \(E(X^m)\) exists, then \(E(X^k)\) also exists for integer k ≤ m.

확률분포의 특성에 대한 정리입니다.

위의 정리에 따르면, \(E(X^2)\)가 존재하면 \(E(X)\)도 존재합니다. 즉, 분산이 존재하면 평균도 반드시 존재해야 한다는 것입니다. 기억해두면 좋을 것 같습니다!


참고: 수리통계학개론 8판
연세대학교 응용통계학과 산하 학회 DSL 수리통계학(1) 세미나 (이성균)