통계학에서 피셔의 업적으로 이야기하자면 진화론의 다윈과 같은 존재이다. 이는 범주형 자료분석(categorical analysis)의 지평을 여는데 큰 공헌을 한 사람인데 우리가 범주형 자료분석 책을 열면 항상 제일 처음에 나오는 예가 바로 피셔의 정확도 검정(Fisher's Exact Probability Test) 이다.
그러나 문제는 이것을 제대로 이해를 못하고 넘어가는 경우가 종종있다. 그래서 이 부분을 최대한 아는 범위에서 정리를 하고자 한다.
어떤 감별사가 차(tea)를 먼저 넣고 우유(milk)를 넣은 차와 우유를 먼저 넣고 차를 다음에 넣은 차를 구분할 수 있다고 한다. 그리고 이 감별사는 테스트에서 다음과 같은 결과를 얻었다.
what pour first? |
||||
|
tea first |
milk first |
합계 | |
감별사 |
tea |
5 |
0 |
5 |
milk |
1 |
4 |
5 | |
합계 |
6 |
4 |
10 |
이때 감별사가 정말 어떤 것이 먼저 들어간 차인지를 알아낼 수 있는 감별력이 있는지 없는지 어떻게 통계적으로 말할 수 있을까? 피셔는 이것을 초기하 분포라고 생각해서 해결할 것을 제안하였다.
위의 문제는우리가 흔히 접하는 확률문제와 똑같다고 본 것이다. 주머니속에 빨간구슬 6개(위의 문제에서 tea를 먼저 넣은 경우)와 파란 구슬 4개(위의 문제에서 milk를 먼저 넣은 경우)가 들어 있을때 5개를 무작위로 반복없이 뽑을때 빨간 구슬이 5개 파란구슬이 0이 나올 확률이 얼마인가? 라는 문제 말이다.
즉 , 피셔는 감별사가 차를 먼저 넣은 경우가 몇건인지(5건)과 우유를 먼저 넣은 경우의 차가 몇 건인지(5건)을 이런 marginal . 그리고 감별사가 그럼 위와 같이 나올 확률값을 계산할 수 있다. 이것은 초기하분포(hypergeometric distribution)으로 전체 10건 ( = 6+4) 중에 5 건을 뽑는데 차를 먼저 넣은 것으로 감별을 할 경우가 5건 그렇지 않은 경우(우유를 먼저 넣은 경우)는 0일 확률값을 계산할 수 있다.
6C5 * 4C0 |
= |
0.0338 |
10C5 |
여기서 각셀값이 전체 5를 넘어갈 수 없기 때문에 이 값은 결국 p-value값이 된다. 유의 수준 5%에서 ”Ha: 감별사의 감별력있다”라는 대립가설을 채택한다.
각 셀의 빈도에 따른 확률값을 계산해보면 다음과 같다.
4 |
3 |
|
2 |
3 |
p= 0.0238 |
|
|
|
3 |
2 |
|
3 |
2 |
p= 0.4762 |
|
|
|
2 |
3 |
|
4 |
1 |
p= 0.2381 |
|
|
|
1 |
4 |
|
5 |
6 |
p= 0.0238 |
이것을 일반화 하다면 다음과 같이 할 수 있다.
B1 |
B2 |
Totals | |
A1 |
a |
b |
a+b |
A2 |
c |
d |
c+d |
Totals |
a+c |
b+d |
n |
A와 B 변수 사이에 아무런 관련이 없는 독립이라고 귀무가설하에 a, b, c, d는 각 셀의 빈도수이고 a+b, c+d는 주어진 값이라고 하자. 우리는 이것을hypergeometric 분포로 이렇게 나올 확률값을 다음과 같이 계산할수 있다.
{(a+c)에서 a개를 뽑을 확률 }* {(b+d)에서 b개를 뽑을 확률}
(a+c)! *(b+d)!
=
a! c!*c! d!
n개에서 (a+b)개를 뽑을 확률
n!
( a+ b)! *(c+ d)!
피셔의 정확검정은 통계적으로 범주형 자료분석의 지평을 열었다는데 상당한 의미가 있다. 따라서 제대로 이해하는 것은 아주 중요할 듯 하다.
'Data, Modeling, and Decisions' 카테고리의 다른 글
통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0) | 2011.03.23 |
---|---|
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3) | 2011.03.21 |
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0) | 2011.03.11 |
범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까 (0) | 2011.02.17 |
카이제곱 검정(Chi-Square Test) (0) | 2011.02.16 |