라플라스 succession rule- 베이지안 통계 (Bayesian Statistics)

 

천재 수학자 라플라스(Laplace)는

What’s the probability that the sun will rise tomorrow, given that it has been doing so every morning on earth for 4.5 billion years?.

즉, 지구에서 45억년 동안 아침에 해가 떴는데 그렇다면 내일도 해가 뜰 확률은 얼마인가?


에 대해서 답을 제시하려고 하였다. 이 문제는 현대 수학자 및 통계학자 사이에서도 뜨거운 이슈가 되기도 하였다.

여러분들은 쉽게 답을 찾을 수 있을까요? 라플라스의 내일 아침에도 해뜰 확률은동전을 n 번 던졌는데 전부 n번이 앞면이 나왔다. 그렇다면 n+1번째 동전이 앞면이 나올 확률이 얼마인지를 계산하는 문제와 같다고 생각을 하였다.

누구가는 이것을 계산할때 한마디로 간단하죠. 1입니다라고 답할겁니다. 왜냐면 지금까지 전부 n번이 나왔으니깐요.

그럼 지금까지 n번을 던져서 s번이 앞면이 나왔다면 그 확률을 단순히 s/n이라고 할 것이다. 따라서 우리는 이것을 일반화된 수식으로 쓴다면

이라고 할 수 있을 것이다.

그렇다면 여기서 s=n이거나 n=0이라면 이 수식은 성립할까? n=0 이라는 말은 동전을 한 번도 안던졌는데 지금 동전을 던지면 앞면이 나올 확률이 얼마이냐는 질문과 같다. 이렇게 물어보면 우리는 쉽게 동전에 공정하게 잘 만들어졌다면 당연히 1/2이라고 대답할 것이다. 그렇다면 위의 식은 틀린 답이 된다. 또한 s=n이라고 하면 동전을 n번을 던져서 앞면이 n번이 나왔는데 다음에 동전을 던졌을때 앞면이 나올 확률은 얼마인지를 계산하는 문제와 같다. 위의 식에 의하면 1이 된다. 따라서 이것도 설명이 충분히 되지 못한다. 

라플라스는 이 확률계산을 미리 두번을 던진 것처럼 하고 그중에 한번이 성공할 확률값으로 계산을 하였다. 위의 예에서는 (s+1)/(n+2) 이된다.  왜냐하면 지금까지 성공한 횟수에서 미리 2번을 던진 것처럼하고 그 중에서 1번이 성공할 확률을 계산하기 때문이다. 우리는 다음에 나올 동전이 앞면인지 뒷면인지 알 수 없기 때문에 결국 1/2의 확률값을 부여한 것이기 때문이다.

이것을 수식으로 다음과 같이 증명을 할 수 있다. 라플라스는 이것을 베이즈 정리를 사용해서 증명을 하였는데 이게 베이지안통계의 시조라 할 수 있을 것 같다.

어떤 사건이 연속해서 n번이 발생하고 다음에 사건이 발생할 확률은 얼마일까? 다시 처음 질문으로 돌아가면 지구가 45억년전에 생성되었고 매일 해가 떴을때 내일도 해가 뜰 확률은 얼마일까?  라플라스는 해가 뜰 확률이 무엇인지 알 수 없으므로 이때  해뜰 확률 자체는 일량분포(uniform distribution) 따른다고 가정하였다. 일량분포란 0에서 1까지 랜덤하게 확률이 발생할 수 있다는 것을 의미한다. 통계의 전문용어로 베이지안통계에서 이것을 사전확률분포(Prior distribution)하고 한다. 

베이지안들은 이렇게 어떤 모수에 대한 분포만을 가정함으로써  훌륭한 추정로직을 개발하였다. 아래 식을 보자. 아래식은 동전을 n번 던졌을때 s번이 앞면이 나올 확률을 계산하는 식이다. 물론 정확히는 (n,s)가 앞에 있어야 하지만 결국 나중에 날아가게 될 것이라서 이렇게만 두자. 여기서 우리는 해뜰 확률 p값이 어떻게 변할지 모른다. 그래서 이것은 확률이 0에서 1까지 랜덤하게 변하는 일량분포를 가정하는 것이다.

 

이렇게 두면 베이즈 정리를 활용해서 사후확률분포(posterior distribution) 구할 있다. p를 결합확률분포식에서 좀 헛갈릴 수 있으니 theta로 쓰자.


문제에서는 n번 연속 동전을 던져서 x번이 앞면이 나왔을때 그 다음에 던진 동전이 앞면이 나올 p의 확률분포함수를 구할 있고 해뜰 확률 p 기대값이 결국은 내일도 해가 뜰 확률값이 된다.

 




따라서 이 사후확률분포를 갖는 theta 의 기대값이  E(theta)=(x+1)/(n+2) 된다. 위의 식은 결국 베타분포이므로 베타분포의 평균값은 (x+1)/(n+2)이기 때문에 여기서 x가 n이 되기 때문이다.

즉, n번의 실행에서 n번이 동전의 앞면이 나오고 다음에 던진 동전이 또 앞면일 확률은 (n+1)/(n+2) 이 된다.


Posted by wishart
,