22  확률변수와 확률분포

표본공간에서 확률변수를 정의하고, 확률변수에 적절한 확률분포를 할당한 후, 확률분포의 모수를 추정하는 과정이 확률론과 통계학에서 가장 핵심적인 부분이라고 볼 수 있다.

표본공간은 확률 실험의 모든 가능한 결과를 포함하는 집합입으로 확률변수를 정의하는 기초가 된다. 확률변수는 표본공간의 결과에 실수값을 할당하는 함수로, 확률 실험의 결과를 수치화한다.

확률변수를 정의한 후에는 확률변수의 특성과 값의 범위를 고려하여 적절한 확률분포를 선택합한다. 확률분포는 확률변수의 값에 확률을 할당하는 함수다. 적절한 확률분포를 선택하는 것은 데이터의 특성을 잘 나타내고 올바른 통계적 추론을 하는 데 매우 중요하다.

확률분포를 선택한 후에는 모수를 추정해야 한다. 모수는 확률분포의 특성을 결정하는 값으로, 데이터나 가정을 바탕으로 추정된다. 모수를 적절히 추정하는 것은 선택한 확률분포가 데이터를 잘 설명하는지 확인하는 데 필수적이다.

확률변수와 확률분포를 매칭하는 과정은 확률론과 통계학에서 매우 중요하다. 확률 실험을 정의하는 것에서부터 모든 절치가 시작한다. 확률 실험을 명확하게 정의한 후, 실험의 가능한 모든 결과로 구성된 표본공간을 확인한다. 표본공간을 바탕으로 확률변수를 정의하는데, 확률변수는 표본공간의 결과에 실수값을 할당하는 함수이다.

확률변수를 정의한 후에는 확률변수의 값 범위를 확인한다. 값의 범위는 확률변수가 가질 수 있는 값의 집합을 나타낸다. 확률변수가 가질 수 있는 값의 집합을 통해 확률변수의 유형과 특성을 파악하게 된다.

확률변수의 특성과 값 범위를 고려하여 적절한 확률분포를 할당한다. 확률분포는 확률변수의 값에 확률을 할당하는 함수다. 적절한 확률분포를 선택하기 위해서는 확률변수의 유형(이산형 또는 연속형), 값의 범위, 문제 상황의 특성 등을 종합적으로 고려한다.

확률분포를 할당한 후에는 확률분포의 모수를 결정해야 한다. 모수는 확률분포의 특성을 결정하는 값으로, 데이터나 가정을 바탕으로 추정된다. 모수를 적절히 결정하는 것은 확률분포가 확률변수와 데이터를 잘 나타내는지 확인하는 데 필수적이다.

마지막으로, 확률분포와 모수를 바탕으로 확률 계산 및 통계적 추론을 수행한다. 확률변수와 관련된 사건의 확률을 계산하고, 데이터를 바탕으로 모수를 추정하며, 가설 검정을 수행한다. 확률변수와 확률분포를 잘못 매칭하게 되면 부적절한 확률 계산과 잘못된 통계적 추론으로 이어질 수 있다.

22.1 사례

22.1.1 동전 10개 던지기

동전 던지기 실험을 사례로 들어 표본공간부터 모수 추정된 확률분포까지의 과정을 순차적으로 살펴보자.

  1. 표본공간 정의
    • 동전을 10번 던지는 실험을 가정한다.
    • 표본공간은 10번의 동전 던지기 결과로 가능한 모든 경우의 집합이다.
    • 각 동전 던지기의 결과는 앞면(H)과 뒷면(T) 중 하나이므로, 표본공간은 \(2^10 = 1024\)가지의 원소를 가진다.
  2. 확률변수 정의
    • 확률 실험에서 관심 있는 것은 10번의 동전 던지기 중 앞면이 나온 횟수다.
    • 따라서, 확률변수 \(X\)를 “10번의 동전 던지기에서 앞면이 나온 횟수”로 정의한다.
    • \(X\)는 0부터 10까지의 정수값을 가질 수 있다.
  3. 확률분포 선택
    • 확률변수 \(X\)는 이산형 확률변수이며, 10번의 독립적인 베르누이 시행(동전 던지기)의 성공(앞면) 횟수를 나타낸다.
    • 이러한 특성을 가진 확률변수는 이항분포를 따른다.
    • 따라서, 공정한 동전이라고 가정하면, \(X\)는 모수 \(n=10, p=0.5\)인 이항분포를 따른다고 할 수 있다.
  4. 모수 추정
    • 이항분포의 모수 \(n\)은 시행 횟수로, 여기서 10으로 고정되어 있다.
    • 모수 \(p\)는 각 시행에서 성공(앞면)할 확률을 나타내며, 동전이 공정하다고 가정했으므로 \(p=0.5\) 다.
    • 따라서 모수 추정은 필요하지 않다.
  5. 모수 추정된 확률분포
    • 모수 \(n=10, p=0.5\)인 이항분포가 확률변수 \(X\)의 분포로 선정되었다.
    • 선정된 분포를 사용하여 \(X\)의 확률질량함수(PMF)와 누적분포함수(CDF)를 계산할 수 있다.

22.1.2 배터리 수명

연속형 확률실험의 사례로 배터리 수명을 들어 표본공간부터 모수 추정된 확률분포까지의 과정을 순차적으로 살펴보자.

  1. 표본공간 정의
    • 특정 브랜드의 배터리 수명을 측정하는 실험을 가정한다.
    • 표본공간은 배터리 수명이 가질 수 있는 모든 양의 실수값의 집합이다.
    • 즉, 표본공간은 \((0, \infty)\)의 구간이 된다.
  2. 확률변수 정의
    • 확률실험에서 관심 있는 것은 배터리의 수명이다.
    • 따라서 확률변수 \(X\)를 “배터리의 수명(시간)”으로 정의된다.
    • \(X\)는 0보다 큰 임의의 실수값을 가질 수 있다.
  3. 확률분포 선택
    • 확률변수 \(X\)는 연속형 확률변수이며, 배터리의 수명을 나타낸다.
    • 많은 전자 제품의 수명은 지수분포를 따르는 것으로 알려져 있다.
    • 따라서 \(X\)는 모수 \(\lambda\)(고장률)를 가진 지수분포를 따른다고 가정할 수 있다.
  4. 모수 추정
    • 지수분포의 모수 \(\lambda\)는 배터리의 고장률을 나타낸다.
    • \(\lambda\)의 값은 데이터를 바탕으로 추정해야 된다.
    • 예를 들어, \(n\)개의 배터리를 테스트하여 각 배터리의 수명 \(x_1, x_2, ..., x_n\)을 얻었다면, \(\lambda\)의 최대우도추정값(MLE)은 \(\lambda = \frac{n}{x_1 + x_2 + \cdots + x_n}\)이 된다.
  5. 모수 추정된 확률분포
    • 데이터로부터 추정된 모수 \(\lambda\) 를 가진 지수분포가 확률변수 \(X\)의 분포로 선택되었다.
    • 모수 \(\lambda\)를 갖는 지수 분포를 사용하여 \(X\)의 확률밀도함수(PDF)와 누적분포함수(CDF)를 계산할 수 있다.
지수분포 모수 \(\lambda\) 추정

지수분포의 모수 \(\lambda\)를 최대우도추정(MLE) 방법으로 추정하는 과정은 다음과 같다.

먼저, 지수분포의 확률밀도함수(PDF)는 다음과 같이 정의된다.

\[ f(x; \lambda) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases} \]

여기서 \(\lambda > 0\)는 지수분포 모수이며, 고장률 또는 강도(intensity)를 나타니다.

\(n\)개의 독립적인 배터리 수명 데이터 \(x_1, x_2, \ldots, x_n\)이 주어졌을 때, 우도 함수(likelihood function)는 다음과 같이 정의된다.

\[ L(\lambda; x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} f(x_i; \lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i} \]

우도 함수를 최대화하는 \(\lambda\)의 값을 찾기 위해, 우도 함수에 로그를 취한 로그 우도 함수(log-likelihood function)를 사용한다.

\[ \ell(\lambda; x_1, x_2, \ldots, x_n) = \log L(\lambda; x_1, x_2, \ldots, x_n) = n \log \lambda - \lambda \sum_{i=1}^{n} x_i \]

로그 우도 함수를 \(\lambda\)에 대해 미분하고, 미분 결과를 0으로 설정하여 \(\lambda\)에 대해 풀어주면 최대우도추정값(MLE)을 구할 수 있다.

\[ \frac{\partial \ell}{\partial \lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0 \]

\[ \hat{\lambda} = \frac{n}{\sum_{i=1}^{n} x_i} \]

따라서, 지수분포 모수 \(\lambda\)의 최대우도추정값(MLE)은 \(\hat{\lambda} = \frac{n}{\sum_{i=1}^{n} x_i}\)이 된다. 배터리 수명 데이터의 총 합을 데이터의 개수로 나눈 값의 역수와 같다.

22.2 확률변수

확률변수(random variable)란 표본공간의 원소를 실수에 대응시키는 함수로 확률실험의 결과를 수치로 나타낸 것으로 볼 수 있다. 확률변수는 확률적인 결과에 대한 수치적 표현이다. 예를 들어, 동전 던지기 실험에서 앞면이 나오면 1, 뒷면이 나오면 0으로 대응시킬 수 있다. 이때 동전 던지기 실험의 결과를 수치로 나타낸 함수가 확률변수다.

수식으로 나타내면, 확률변수 \(X\)는 표본공간 \(\Omega\)에서 실수 집합 \(\mathbb{R}\)로의 함수로 표현할 수 있다.

\[X: \Omega \rightarrow \mathbb{R}\]

이때, 확률변수 \(X\)가 어떤 실수 값 \(x\)보다 작거나 같을 확률을 누적분포함수(cumulative distribution function, CDF)라고 하며 다음과 같이 나타낸다.

\[F_X(x) = P(X \leq x)\]

확률 실험

확률변수는 표본공간의 원소인 표본을 실수로 대응시키는 함수로 확률 실험(random experiment)의 결과를 수치적으로 나타내는 것이다.

확률실험은 그 실험을 반복할 때 그 결과를 미리 알 수 없으며, 그 결과에 따라 특정한 확률이 부여되는 실험을 말한다. 예를 들면, 동전 던지기, 주사위 굴리기 등이 대표적인 확률 실험이다. 확률 실험의 결과에 실수값을 대응 시킨 것을 확률변수라 정의하고 보통 확률변수는 대문자 \(X\), \(Y\) 등으로 표기한다.

확률변수는 값을 가지는 특성에 따라 이산형 확률변수(discrete random variable)연속형 확률변수(continuous random variable)로 나뉜다. 이산형 확률변수는 가질 수 있는 값이 유한하거나 무한하더라도 셀 수 있는 경우를 말한다. 예를 들어, 주사위를 던졌을 때 나오는 눈의 수는 1, 2, 3, 4, 5, 6 중 하나이므로 이산형 확률변수가 된다. 반면, 연속형 확률변수는 어떤 구간 내의 모든 실수 값을 가질 수 있는 경우를 말한다. 예를 들어, 어떤 제품의 수명이나 사람의 키와 몸무게 등은 연속형 확률변수로 나타낼 수 있다.

22.3 확률질량함수

누적분포함수(CDF)와 확률질량함수(PMF)는 이산형 확률변수가 특정 값을 취할 확률을 나타내는 두 가지 주요 함수이다. 확률질량함수(PMF)는 셀 수 있는 유한 또는 무한하더라도 셀 수 있는 값을 가진다. PMF는 이산형 확률변수가 특정 값 \(x\)를 취할 확률을 나타낸다.

예를 들어, 주사위를 한 번 던지는 경우, 각 면이 나올 확률은 \(\frac{1}{6}\)이다. PMF \(p(x)\)\(x\)가 1에서 6 사이의 정수일 때 \(\frac{1}{6}\)의 값을 가진다. \(x\)가 1에서 6 외의 값이면 \(p(x) = 0\)이 된다.

누적분포함수(CDF)는 확률변수 \(X\)가 특정 값 \(x\) 이하가 될 확률을 나타낸다. 이산형 확률변수의 경우, CDF는 주어진 값 \(x\)까지 PMF의 합으로 계산된다.

예를 들어, 앞선 주사위 예시에서, 3 이하의 값이 나올 확률을 구하는 CDF \(F(3)\)는 다음과 같이 계산된다.

\[F(3) = p(1) + p(2) + p(3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2}\]

주사위의 값이 3 이하일 확률이 50%임을 나타낸다.

22.4 이산형 확률질량함수

이산형 확률변수 \(X\)\(Y\)에 대해, 확률질량함수(PMF), 누적분포함수(CDF), 결합 확률분포, 주변 확률분포를 다음과 같이 정의할 수 있다.

확률질량함수(PMF)는 확률변수가 특정 값을 가질 확률을 나타내며, \(P(X=x)\)\(P(Y=y)\)로 표현한다. 결합 확률질량함수(Joint PMF)는 두 확률변수가 동시에 특정 값을 가질 확률을 나타내며, \(P(X=x, Y=y)\)로 표기한다.

주변 확률질량함수(Marginal PMF)는 결합 확률질량함수에서 한 변수에 대해 합을 구하여 얻을 수 있다. 예를 들어, \(P(X=x) = \sum_y P(X=x, Y=y)\)이다.

누적분포함수(CDF)는 확률변수가 특정 값보다 작거나 같을 확률을 나타내며, PMF를 이용하여 계산할 수 있다. 각 변수의 CDF는 \(F(x) = P(X \leq x)\)\(F(y) = P(Y \leq y)\)로 표현한다.

결합 누적분포함수(Joint CDF)는 두 확률변수가 동시에 특정 값보다 작거나 같을 확률을 나타내며, 결합 확률질량함수를 이용하여 계산할 수 있다. 이는 \(F(x, y) = P(X \leq x, Y \leq y)\)로 표기한다.

주변 누적분포함수(Marginal CDF)는 주변 확률질량함수를 이용하여 계산할 수 있으며, 결합 누적분포함수에서도 얻을 수 있다. 예를 들어, \(F(x) = F(x, \infty)\)이고, \(F(y) = F(\infty, y)\)이다.

그림 22.1: 이산형 확률변수 PMF와 CDF 관계도

22.4.1 사례

동전의 앞면이 나오는 사건을 확률변수 \(X\), 주사위의 눈의 수를 확률변수 \(Y\)라고 하자. 이때, \(X\)는 0(뒷면)과 1(앞면)의 값을 가지고, \(Y\)는 1부터 6까지의 정수 값을 가진다.

  • \(P(X=1) = \frac{1}{2} = 0.5\) (동전의 앞면이 나올 확률)
  • \(P(X=0) = \frac{1}{2} = 0.5\) (동전의 뒷면이 나올 확률)
  • \(P(Y=k) = \frac{1}{6}, \quad k=1,2,\ldots,6\) (주사위의 눈의 수가 k로 나올 확률)
  • \(P(X=1, Y=k) = \frac{1}{12}, \quad k=1,2,\ldots,6\) (동전의 앞면, 주사위 눈 수가 k 확률)
  • \(P(X=0, Y=k) = \frac{1}{12}, \quad k=1,2,\ldots,6\) (동전의 뒷면, 주사위 눈 수 k확률)
  • \(P(X=1) = \sum_{k=1}^{6} P(X=1, Y=k) = \frac{1}{2}\)
  • \(P(X=0) = \sum_{k=1}^{6} P(X=0, Y=k) = \frac{1}{2}\)
  • \(P(Y=k) = P(X=1, Y=k) + P(X=0, Y=k) = \frac{1}{6}, \quad k=1,2,\ldots,6\)
  • \(F(X=0) = P(X \leq 0) = P(X=0) = 0.5\)
  • \(F(X=1) = P(X \leq 1) = P(X=0) + P(X=1) = 0.5 + 0.5 = 1\)
  • \(F(Y=k) = P(Y \leq k) = \sum_{i=1}^{k} P(Y=i) = \frac{k}{6}, \quad k=1,2,\ldots,6\)

\[ \begin{align*} F(X=0, Y=k) &= P(X \leq 0, Y \leq k) \\ &= \sum_{i=1}^{k} P(X=0, Y=i) \\ &= \frac{k}{12}, \quad k=1,2,\ldots,6 \end{align*} \]

\[ \begin{align*} F(X=1, Y=k) &= P(X \leq 1, Y \leq k) \\ &= F(X=0, Y=k) + \sum_{i=1}^{k} P(X=1, Y=i) \\ &= \frac{k}{6}, \quad k=1,2,\ldots,6 \end{align*} \]

  • \(F(X=0) = F(X=0, Y=6) = 0.5\)
  • \(F(X=1) = F(X=1, Y=6) = 1\)
  • \(F(Y=k) = F(X=1, Y=k) = \frac{k}{6}, \quad k=1,2,\ldots,6\)

22.4.2 R 코드

#> X PMF: 0.5 0.5
#> Y PMF: 0.1666667 0.1666667 0.1666667 0.1666667 0.1666667 0.1666667
#> 결합 PMF (X=1, Y=1 to 6):
#>  0.08333333 0.08333333 0.08333333 0.08333333 0.08333333 0.08333333
#> X CDF:
#>  0.5 1
#> Y CDF of Y:
#>  0.1666667 0.3333333 0.5 0.6666667 0.8333333 1
#> 결합 CDF (X=1, Y=1 to 6):
#>  0.08333333 0.1666667 0.25 0.3333333 0.4166667 0.5
#> X 주변 CDF:
#>  0.5 1
#> Y 주변 CDF:
#>  0.1666667 0.3333333 0.5 0.6666667 0.8333333 1

22.5 연속형 확률밀도함수

연속형 확률변수 \(X\)\(Y\)에 대해, 확률밀도함수(PDF)는 연속형 확률변수의 확률 밀도를 나타내며, \(f_X(x)\)\(f_Y(y)\)로 표현한다. PDF는 확률변수가 특정 값을 가질 확률이 아닌, 특정 구간 내에 존재할 확률을 나타내는 함수이다. 즉, \(P(X=x) = 0\)이지만, \(P(a \leq X \leq b) = \int_a^b f_X(x) dx\)로 구간 내에 존재할 확률을 계산할 수 있다.

결합 확률밀도함수(Joint PDF)는 두 연속형 확률변수가 동시에 특정 값을 가질 확률 밀도를 나타내며, \(f_{X,Y}(x, y)\)로 표기한다.

주변 확률밀도함수(Marginal PDF)는 결합 확률밀도함수에서 한 변수에 대해 적분을 하여 얻을 수 있다. 예를 들어, \(f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dy\)이다.

누적분포함수(CDF)는 확률변수가 특정 값보다 작거나 같을 확률을 나타내며, PDF를 적분하여 계산할 수 있다. 각 변수의 CDF는 \(F_X(x) = P(X \leq x) = \int_{-\infty}^{x} f_X(t) dt\)\(F_Y(y) = P(Y \leq y) = \int_{-\infty}^{y} f_Y(t) dt\)로 표현한다.

결합 누적분포함수(Joint CDF)는 두 확률변수가 동시에 특정 값보다 작거나 같을 확률을 나타내며, 결합 확률밀도함수를 이중적분하여 계산할 수 있다.

\[F_{X,Y}(x, y) = P(X \leq x, Y \leq y) = \int_{-\infty}^{x} \int_{-\infty}^{y} f_{X,Y}(s, t) dt ds\]

주변 누적분포함수(Marginal CDF)는 주변 확률밀도함수를 적분하여 계산할 수 있으며, 결합 누적분포함수에서도 얻을 수 있다.

\[F_X(x) = F_{X,Y}(x, \infty)$이고, $F_Y(y) = F_{X,Y}(\infty, y)\]

그림 22.2: 연속형 확률변수 PDF와 CDF 관계도

22.5.1 사례

확률변수 \(X\)\(Y\)가 모두 표준정규분포를 따른다고 가정하자. 즉, \(X \sim N(0, 1)\), \(Y \sim N(0, 1)\)이며 두 확률변수는 독립이라고 가정하고 있다. 이때, \(X\)\(Y\)의 확률밀도함수, 결합 확률밀도함수, 주변 확률밀도함수, 결합 누적분포함수, 주변 누적분포함수를 구해보자.

표준정규분포의 확률밀도함수(PDF)는 다음과 같다.

\[f_X(x) = f_Y(y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}x^2}, \quad -\infty < x < \infty\]

\(X\)\(Y\)가 독립이므로, 결합 확률밀도함수(Joint PDF)는 각 변수의 PDF의 곱이다.

\[f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) = \frac{1}{2\pi} e^{-\frac{1}{2}(x^2 + y^2)}, \quad -\infty < x, y < \infty\]

결합 PDF에서 한 변수에 대해 적분하면 주변 PDF를 얻을 수 있다. 그러나 \(X\)\(Y\)가 독립이므로, 주변 PDF는 각 변수의 PDF와 같다.

\[f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dy = f_X(x)\]

\[f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dx = f_Y(y)\]

표준정규분포의 누적분포함수(CDF)는 다음과 같다.

\[F_X(x) = F_Y(y) = \Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}t^2} dt, \quad -\infty < x < \infty\]

여기서 \(\Phi(x)\)는 표준정규분포의 CDF를 나타내는 기호이다.

\(X\)\(Y\)가 독립이므로, 결합 CDF는 각 변수의 CDF의 곱이다.

\[F_{X,Y}(x, y) = P(X \leq x, Y \leq y) = F_X(x) \cdot F_Y(y) = \Phi(x) \cdot \Phi(y), \quad -\infty < x, y < \infty\]

주변 PDF를 적분하거나, 결합 CDF에서 한 변수를 무한대로 보내면 주변 CDF를 얻을 수 있다. 그러나 \(X\)\(Y\)가 독립이므로, 주변 CDF는 각 변수의 CDF와 같다.

\[F_X(x) = F_{X,Y}(x, \infty) = \Phi(x)\]

\[F_Y(y) = F_{X,Y}(\infty, y) = \Phi(y)\]

22.5.2 R 코드

독립적인 두 \(X\)\(Y\) 표준정규분포 확률변수에 대한 PDF, CDF, 결합 확률분포, 주변 확률분포를 계산하고 시각화하는 R 코드를 작성해보자. R 내장함수로 dnorm, pnorm 표준정규분포 PDF, CDF가 구혀되어 있어 이를 명칭을 달리하여 구현한다.

그림 22.3: 주변 CDF 시각화