사랑

영화 굿 윌 헌팅의 실화 수학 1편

대전티모시샬라메 2026. 1. 11. 02:00

영화 굿 윌 헌팅은 MIT 청소부가 교수가 칠판에 수학 도전 문제를 풀어버려 주목을 받으며 시작된다. 이러한 스토리는 George Dantzig의 실화에서 영감을 얻었다고 한다. 1939년 버클리 대학교 대학원생이었던 그는 수업에 지각해 칠판에 적힌 두 문제를 보고 당연히 숙제라고 생각해 적어갔고, 며칠 뒤 숙제가 평소보다 조금 어렵다고 하며 제출했다. 사실 이 두 문제는 통계학에서 풀리지 않고 있었던 난제들이었고, Neyman의 도움 덕분에 Gantzig은 이를 논문으로 출판하여 박사 학위를 얻는다.

이번 글에서는 이 중 첫 번째 난제를 살펴본다. 구체적으로, Dantzig가 발표한 다음 논문의 내용을 설명할 것이다.

ON THE NON-EXISTENTCE OF TESTS OF "STUDENT'S" HYPOTHESIS
HAVING POWER FUNCTIONS INDEPENDENT OF $\boldsymbol\sigma$

1. Introduction.  이 논문에서 다루는 문제를 이해하기 위한 배경지식을 먼저 소개하겠다. $n$개의 random variable들 $x_1$, $x_2$, $\cdots$, $x_n$이 알려지지 않은 평균 $\xi$, 알려지지 않은 표준편차 $\sigma$을 가지는 정규 분포를 따른다고 하자. 이 때, 특정 값 $\xi_0$에 대하여 $\xi = \xi_0$이라는 가설 $H_0$을 "Student" Hypothesis라 한다. 이는 $\sigma$에 대한 가설은 세우지 않은 것이다. 만약 $H_0$의 대립 가설을 $H_a$ : $\xi > \xi_0$로 설정하면 asymmetric case of "Student's Hypothesis"라 하며, 이 경우 $H_0$에 대한 uniformly most powerful test는 잘 알려져 있다. 구체적으로 다음이 만족될 때 $H_0$을 기각하는 것이다. $$t = \frac{\overline{x} - \xi_0}{S}\sqrt{n-1} > t_{\alpha}$$ 여기서 $\alpha$은 level of significance이며, $\overline{x}$와 $S$는 관측된 $x_i$들의 평균과 표준 편차이고, $t_{\alpha}$은 Fisher 표의 $P=2\alpha$에 해당하는, 즉 $P\{t > t_{\alpha} \ \vert \ H_0\} = \alpha$을 만족하는 값이다.$H_0$의 대립 가설을 $H_a$ : $\xi \neq \xi_0$로 설정하면, $H_0$에 대한 uniformly most powerful test가 없음이 알려져 있다. 그러나, 위의 $t$을 이용하여 다음의 경우 $H_0$을 기각하는 test을 생각할 수 있다: $$\left\vert t \right\vert > t_{\alpha}$$ 여기서 $t_{\alpha}$은 Fisher 표의 $P=\alpha$에 해당하는 값이다. 비록 이러한 "Student's" test은 uniformly most powerful하지는 않지만, 다른 test들에 비하여 충분히 powerful하다. 이를 설명하기 위한 power function $\beta(\xi, \sigma)$은, $\xi$ $\sigma$ $x_i$들의 실제 평균과 실제 표준 오차일 때 $H_0$이 기각될 확률로 정의하자. 앞서 언급한 "Student's" test의 powerful은, $\beta$의 잘 알려진 다음 두 가지 성질으로부터 알 수 있다. (1) $\beta$은 $\sigma$에 관계없이$\xi = \xi_0$에서 최소값을 가지며, (2) 동일한 $\alpha$을 가지고 (1)을 만족하는 다른 test의 power function $\beta'(\xi, \sigma)$은 "Student's" test의 power function보다 클 수 없다.

위의 "Student's" test의 두 가지 형태($t > t_{\alpha}$  $\left\vert t \right\vert > t_{\alpha}$)는 모두 어떠한 문제점을 갖고 있다. 만약 실험을 수행한 후 $\xi = \xi_0$라는 "Student's" Hypothesis을 test한다면, 실제 $\xi$ 값이 $\xi_0$와 다를 경우 test가 이 상황을 발견해야 한다. 하지만, 두 값의 차이 $\xi - \xi_0 = \Delta$가 큰 값을 가질 때 $H_0$이 기각될 확률이 합리적으로 커지도록 예방 조치를 취하는 것이 바람직하다. 이는 $\xi = \xi_0 + \Delta$ 값에 해당하는 $\beta(\xi, \sigma)$의 값을 계산함으로써 수행될 수 있습니다.

그리고 여기서 "Student's" test의 단점이 드러난다. power function $n$ $\Delta$뿐만 아니라 $\sigma$에도 의존하기 때문이. 따라서 실제로 $\xi = \xi_0 + \Delta$일 때 $H_0$ : $\xi = \xi_0$의 거짓됨을 test가 감지할 확률을 파악하기 위해서는 $n$에 대한 지식뿐만 아니라 $\sigma$의 가능성 있는 값도 필요하다. 그러나 $\sigma$의 값을 아는 경우에는 "Student's" Test 대신 z-test을 사용하면 되므로, "Student's" test을 사용하는 경우에서는 $\sigma$에 대한 정보가 없을 것이다. 즉, $\beta(\xi, \sigma)$로부터는 대략적인 정보만 얻을 수 있다.

이러한 상황에서, power function이 $\sigma$에 무관하도록 test of "Student's" hypothesis을 설정하는 것이 가능한지에 대한 고민을 해야 한다. 만약 그러한 test가 존재하고 충분히 powerful함이 증명된다면, 이의 power function은 실험 계획 목적으로 사용될 수 있을 것이다. Dantizg은 이 논문에서 그러한 test가 존재하지 않음을 증명하고, 결과적으로 "Student's" test을 개선하는 것이 어렵다는 결론을 내린다.

2. Statement of the Problem.  $\sigma$에 무관한 power function을 가지는 test을 찾는 문제는, power function을 다음과 같이 정의할 때, 임의의 $\xi$에 대하여 power function이 $\sigma$와 무관하도록 하는 critical region $w$을 찾는 문제와 같다. $$\beta(\xi, \sigma) = P\{E \in w \ \vert \ \xi, \sigma\}$$ 여기서 $E$은 sample point인 $(x_1, x_2, \cdots, x_n)$을 의미한다. 또한 이러한 power function은 $\xi$에도 무관함을 보일 수 있다. 즉, test는 hypothesis의 진위 여부에 무관하게 동일한 빈도로 hypothesis을 기각해버리고 만다...

3. THEOREM. $\xi_0 \ne \xi_1$이고 상수 $\alpha$, $\beta$에 대하여, $\sigma$의 값에 무관하게 다음을 만족하는 region $w$이 존재한다면, $$\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n \int\cdots\int_w e^{-\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i - \xi_0)^2} dx_1 dx_2 \cdots dx_n \equiv \alpha$$ $$\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n \int\cdots\int_w e^{-\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i - \xi_1)^2} dx_1 dx_2 \cdots dx_n \equiv \beta$$ 다음이 성립한다: $\alpha = \beta$. 이제 이 명제를 증명하자.

similar이라는 개념으로 $w$을 다루자. 매개변수 $\theta$에 대한 elementary probability laws $p(E \ \vert \ \theta)$에 대하여, 만약 $\theta$의 값에 관계없이 $P\{E \in w \ \vert \ \theta\} = \alpha$라면, 영역 $w$은 크기가 $\alpha$인 전체 sample space $W$와 similar하다고 한다. 즉, 위에서의 영역 $w$는 매개변수 $\sigma$에 대한 두 elementary probability law에 대한 similar 영역이다.

hypersphere $\sum_{i=1}^{n}(x_i - \xi_0)^2 = r^2$의 표면 중 $w$와의 공통 부분을 $w_r$, 전체 표면을 $W_r$라 하자. Neyman과 Pearson은 위와 같은 경우 $w$가 similar이기 위한 필요충분조건은, sample point $E$가 $W_r$ 위에 있다고 알려졌을 때, $w_r$에 떨어질 확률이 $r$에 관계없이 $\alpha$인 것임을 보였다. 즉, 다음이 모든 $r$에 대하여 성립할 때이다: $$\{E \in w_r \ \vert \ (E \in W_r)(\xi = \xi_0)\} = \alpha$$ 비슷하게, hypersphere $\sum_{i=1}^{n}(x_i - \xi_1)^2 = \rho^2$의 표면 중 $w$와의 공통 부분을 $w_{\rho}$, 전체 표면을 $W_{\rho}$라 하자. $w$는 $\xi_1$에 대한 확률 법칙 집합에 대해서도 similar이므로, 다음이 모든 $\rho$에 대하여 성립한다: $$ P\{E \in w_{\rho} \ \vert \ (E \in W_{\rho})(\xi = \xi_1)\} = \beta$$

표면 $W_r$ 위에서 elementary probability law $$ \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n e^{-\frac{1}{2\sigma^2} \sum_{1}^{n}(x_i - \xi_0)^2} = \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n e^{-\frac{r^2}{2\sigma^2}}$$ 은 일정하므로, (8)의 등가적인 진술은 $w_r$의 초면적(hyper-area)이 전체 초면적 $W_r$의 일정한 비율 $\alpha$라는 것입니다56. 마찬가지로 (9)로부터 $w_{\rho}$의 초면적은 $r$과 $\rho$의 값에 관계없이 초곡면 $W_{\rho}$ 면적의 일정한 비율 $\beta$임을 알 수 있습니다57.     $x_1, x_2, \cdot\cdot\cdot x_n$을 점 $(\xi_0, \xi_0, \cdot\cdot\cdot, \xi_0)$을 극으로 하는 일반화된 극좌표로 표현하는 변환을 고려해 봅시다58:     $$(11) \quad \begin{aligned} x_1 - \xi_0 &= r \cos \theta_2 \cos \theta_3 \cdot\cdot\cdot \cos \theta_{n-1} \cos \theta_n \\ x_2 - \xi_0 &= r \cos \theta_2 \cos \theta_3 \cdot\cdot\cdot \cos \theta_{n-1} \sin \theta_n \\ x_3 - \xi_0 &= r \cos \theta_2 \cos \theta_3 \cdot\cdot\cdot \sin \theta_{n-1} \\ &\cdot\cdot\cdot \\ x_{n-1} - \xi_0 &= r \cos \theta_2 \sin \theta_3 \\ x_n - \xi_0 &= r \sin \theta_2 \end{aligned}$$ 59   이 변환의 야코비안(Jacobian) $\Delta$는 다음과 같습니다:  $$(12) \quad |\Delta| = r^{n-1} \left| \prod_{i=2}^{n} \cos^i \theta_{n+2-i} \right| [cite_start]= r^{n-1} T(\theta_i)$$ 60606060  +1 또한 점 $(\xi_1, \xi_1, \cdot\cdot\cdot, \xi_1)$을 극으로 하여 $(x_1, x_2, \cdot\cdot\cdot x_n)$을 극좌표로 표현하는 변환을 고려해 봅시다61. 이는 (11)에서 $\xi_0$를 $\xi_1$로, $r$을 $\rho$로, $\theta_i$를 $\overline{\theta}_i$로 교체하여 얻을 수 있습니다62. 이 변환의 야코비안은 $|\overline{\Delta}| = \rho^{n-1} T(\overline{\theta}_i)$로 주어집니다63. 이제 우리는 $W_r$의 초면적을 다음과 같이 표현할 수 있습니다64:  +3   $$(13) \quad \iint_{W_r} |\Delta| d\theta_2 d\theta_3 ... d\theta_n = r^{n-1} \int_{W_r} T(\theta_i) d\theta_2 d\theta_3 ... d\theta_n = K r^{n-1}$$ 65   여기서 적분 값 $K > 0$은 $r$과 독립적인 상수입니다66. 마찬가지로 $W_{\rho}$의 초면적은 $K \rho^{n-1}$이며, 여기서 $K$는 (13)에서와 동일합니다67. (8)과 (9)에 따르면 이제 다음이 성립합니다68:  +2   $$(14) \quad \iint_{w_r} |\Delta| d\theta_2 d\theta_3 \cdot\cdot\cdot d\theta_n = \alpha \cdot K \cdot r^{n-1}$$ 69696969  +1 $$(15) \quad \iint_{w_{\rho}} |\overline{\Delta}| d\overline{\theta}_2 d\overline{\theta}_3 \cdot\cdot\cdot d\overline{\theta}_n = \beta \cdot K \cdot \rho^{n-1}$$ 70   세 점 $(x_1, x_2, \cdot\cdot\cdot, x_n)$, $(\xi_0, \xi_0, \cdot\cdot\cdot, \xi_0)$ 및 $(\xi_1, \xi_1, \cdot\cdot\cdot, \xi_1)$사이의 거리를 고려해 봅시다71. 첫 번째 점에서 두 번째 점 및 세 번째 점까지의 거리는 이미 $r$과 $\rho$로 나타냈습니다72. 마지막 두 점 사이의 거리를 $L$이라고 하면, 삼각형의 두 변의 합은 나머지 한 변보다 크거나 같으므로 다음이 성립합니다73:  +2   $$(16) \quad r \le \rho + L, \quad \rho \le r + L \quad \text{여기서 } L = \sqrt{n}|\xi_0 - \xi_1|$$ 74   $\varphi(t) \ge 0$를 $t$의 임의의 단조 비증가 함수(monotonic nonincreasing function)라고 합시다. 단, 곱 $t^{n-1}\varphi(t)$는 0에서 $+\infty$까지 적분 가능해야 합니다[cite: 111]. [cite_start]$\varphi(t)$가 감소 함수이므로 (16)으로부터 다음이 도출됩니다75:     $$(17) \quad \varphi(r) \ge \varphi(\rho + L) \quad \text{및} \quad \varphi(\rho) \ge \varphi(r + L)$$ 76   적분 $I$를 고려해 봅시다:    $$(18) \quad I = \iint_w \varphi(r) dx_1 dx_2 \cdot\cdot\cdot dx_n$$ 77777777  +1 이를 변수 $r, \theta_2, \cdot\cdot\cdot, \theta_n$ 및 $\rho, \overline{\theta}_2, \cdot\cdot\cdot, \overline{\theta}_n$으로 표현하여 결과를 비교하겠습니다78. 따라서:   $$(19) \quad \begin{aligned} I &= \iint_w |\Delta| [cite_start]\varphi(r) dr d\theta_2 ... d\theta_n \\ &= \int_0^\infty \varphi(r) dr \int_{w_r} |\Delta| d\theta_2 \cdot\cdot\cdot d\theta_n \\ &= \alpha \cdot K \cdot \int_0^\infty r^{n-1} \varphi(r) dr \end{aligned}$$ 79797979  +1 또한 (16)에 의해 다음을 얻습니다80:   $$(20) \quad I = \iint_w |\overline{\Delta}| \varphi(r) d\rho d\overline{\theta}_2 \cdot\cdot\cdot d\overline{\theta}_n \ge \iint_w |\overline{\Delta}| [cite_start]\varphi(\rho + L) d\rho d\overline{\theta}_2 \cdot\cdot\cdot d\overline{\theta}_n$$ 81   따라서:    $$(21) \quad I \ge \int_0^\infty \varphi(\rho + L) d\rho \iint_{w_{\rho}} |\overline{\Delta}| d\overline{\theta}_2 ... d\overline{\theta}_n = \beta \cdot K \int_0^\infty \rho^{n-1} \varphi(\rho + L) d\rho$$ 82828282  +1   $K > 0$ 이므로 (19)와 (21)로부터 다음을 얻습니다83:     $$(22) \quad \alpha/\beta \ge \int_0^\infty t^{n-1} \varphi(t + L) dt / \int_0^\infty t^{n-1} \varphi(t) dt$$ 84   (18), (19), (20), (21)에서 $\rho$와 $r$을 서로 바꾸면 다음도 얻을 수 있습니다85:     $$(23) \quad \beta/\alpha \ge \int_0^\infty t^{n-1} \varphi(t + L) dt / \int_0^\infty t^{n-1} \varphi(t) dt$$ 86   (22)와 (23)에서 임의의 $p > 0$에 대하여 $\varphi(t) = e^{-pt}$ 및 $\varphi(t+L) = e^{-pL}e^{-pt}$라고 둡시다87. 그러면:     $$(24) \quad \alpha/\beta \ge e^{-pL} \quad \text{및} \quad \beta/\alpha \ge e^{-pL}$$ 88   (24)는 모든 $p > 0$에 대해 성립하므로, $p$를 0으로 접근시켜 봅시다89. 그러면 $\lim_{p \to 0} e^{-pL} = 1$이며, 위 부등식은 오직 다음과 같을 때만 성립할 수 있습니다90:  +1   $$(25) \quad \alpha = \beta$$ 91증명 종료 (Q.E.D.) 92  +1 검정력 함수가 $\xi$와 $\sigma$ 모두에 독립적인 영역이 실제로 존재한다는 점은 흥미롭습니다93. 예를 들어, $S_n$을 관측값 $(x_1, x_2, \cdot\cdot\cdot, x_n)$의 표준 편차라 하고, $S_{n-1}$을 값 $(x_1, x_2, \cdot\cdot\cdot, x_{n-1})$의 표준 편차라고 합시다. 그러면 부등식 $(S_{n-1}/S_n) \ge C$를 만족하는 모든 점 $(x_1, x_2, \cdot\cdot\cdot x_n)$으로 주어진 영역 $w$가 그러한 영역입니다94. 즉:  +1 $$(26) \quad P\{(S_{n-1}/S_n) \ge C | [cite_start]\xi, \sigma\}$$ 95   는 $\xi$와 $\sigma$의 값이 무엇이든 일정합니다96. 그러나 이러한 영역은 "스튜던트" 가설 $\xi = \xi_0$를 테스트하는 데 부적합한데, 그 이유는 가설이 틀렸을 때와 맞았을 때를 동일한 빈도로 기각하기 때문입니다97. 

The author is indebted to Professor J. Neyman for assistance in preparing the present paper.

'사랑' 카테고리의 다른 글

지구를 지켜라! 외계인의 시간  (0) 2025.11.03
레제의 1+1=  (0) 2025.10.17
시트콤 빅뱅 이론의 적분  (4) 2025.08.08
37% 연인과 결혼하세요  (0) 2025.08.08
그을린 사랑의 오일러 공식  (6) 2025.06.30