통계학에서 피셔의 업적으로 이야기하자면 진화론의 다윈과 같은 존재이다. 이는 범주형 자료분석(categorical analysis) 지평을 여는데 공헌을 사람인데 우리가 범주형 자료분석 책을 열면 항상 제일 처음에 나오는 예가 바로 피셔의 정확도 검정(Fisher's Exact Probability Test) 이다.

그러나 문제는 이것을 제대로 이해를 못하고 넘어가는 경우가 종종있다. 그래서 부분을 최대한 아는 범위에서 정리를 하고자 한다.

어떤 감별사가 (tea) 먼저 넣고 우유(milk) 넣은 차와 우유를 먼저 넣고 차를  다음에 넣은 차를 구분할 있다고 한다. 그리고 감별사는 테스트에서 다음과 같은 결과를 얻었다.

what pour first?

 

tea first

milk first

합계

감별사

tea

5

0

5

milk

1

4

5

합계

6

4

10

 이때 감별사가 정말 어떤 것이 먼저 들어간 차인지를 알아낼 있는 감별력이 있는지 없는지 어떻게 통계적으로 말할 있을까? 피셔는 이것을 초기하 분포라고 생각해서 해결할  것을 제안하였다.

위의 문제는우리가 흔히 접하는 확률문제와 똑같다고 것이다. 주머니속에 빨간구슬 6(위의 문제에서 tea 먼저 넣은 경우) 파란 구슬 4(위의 문제에서 milk 먼저 넣은 경우) 들어 있을때 5개를 무작위로 반복없이 뽑을때 빨간 구슬이 5 파란구슬이 0 나올 확률이 얼마인가? 라는 문제 말이다.

, 피셔는 감별사가 차를 먼저 넣은 경우가 몇건인지(5) 우유를 먼저 넣은 경우의 차가  건인지(5) 이런 marginal .  그리고 감별사가 그럼 위와 같이 나올 확률값을 계산할 있다. 이것은 초기하분포(hypergeometric distribution)으로 전체 10 ( = 6+4) 중에 5 건을 뽑는데  차를 먼저 넣은 것으로 감별을 경우가 5 그렇지 않은 경우(우유를 먼저 넣은 경우) 0 확률값을 계산할 있다.

6C5 * 4C0

=

0.0338

10C5

여기서 각셀값이 전체 5 넘어갈 없기 때문에 값은 결국 p-value값이 된다.  유의 수준 5%에서 ”Ha:  감별사의 감별력있다라는 대립가설을 채택한다.

셀의 빈도에 따른 확률값을 계산해보면 다음과 같다.

4

3

 

2

3

p=  0.0238

 

 

 

3

2

 

3

2

p= 0.4762

 

 

 

2

3

 

4

1

p= 0.2381

 

 

 

1

4

 

5

6

p= 0.0238

이것을 일반화 하다면 다음과 같이 있다.

B1

B2

Totals

A1

a

b

a+b

A2

c

d

c+d

Totals

 a+c 

 b+d 

n



A
B 변수 사이에 아무런 관련이 없는 독립이라고 귀무가설하에 a, b, c, d 셀의 빈도수이고 a+b, c+d 주어진 값이라고 하자. 우리는 이것을hypergeometric 분포로 이렇게 나올 확률값을 다음과 같이 계산할수 있다


{(a+c)에서 a개를 뽑을 확률 }* {(b+d)에서 b개를 뽑을 확률}   (a+c)! *(b+d)!
= a! c!*c! d!
n개에서 (a+b)개를 뽑을 확률 n!
  ( a+ b)! *(c+ d)!

피셔의 정확검정은 통계적으로 범주형 자료분석의 지평을 열었다는데 상당한 의미가 있다. 따라서 제대로 이해하는 것은 아주 중요할 듯 하다.

Posted by wishart
,