맥니마 검정(McNemar test, paired test. 혹은대응표본검정 )- 범주형 자료분석
Data, Modeling, and Decisions 2011. 3. 26. 15:01맥니마 검정은 두 개의 변수가 paired 되어 있을때 사용할 수 있는 테스트로 우리가 흔히 접하는 카이스퀘어의 독립성검정이나 적합성 검정법과는 다르다. 이 검정법은 의학통계나 사회과학에서 많이 사용되고 있다.
우리가 흔히 범할 수 있는 오류로 두 변수가 합께 쌍을 이루고(독립이 아니다) 있음에도 불구하고 일반적인 카이스궤어 검정을 하면 통계적으로 매우 유의하게 나올 수 있는 상황에서도 유의하지 않다고 나오는 경우가 많다. 따라서 데이타의 성질을 제대로 파악하고 통계방법론을 적용해야 한다.
아래 테이블은 2개의 paired변수가 다음과 같이 있을때 실제 테스트 하고자 하려는 목적은 이들의 독립성이 아니라 확률 (0,1)과 (1,0)의 확률값이 같은지를 테스트를 하고자 한다.
Yi = 0 |
Yi = 1 | |
| ||
Xi = 0 |
a |
b |
Xi = 1 |
c |
d |
|
맥니마 검정(McNemar test)는 다음과 같은 가정을 한다.
1. (Xi,Yi) 는 상호 독립이다.
2. 각각의 Xi 와 Yi 는 두개의 가능한 결과를 갖는다. 즉 0 아니면 1의 카테고리 값을 갖는다.
3. 차이값= P(Xi = 0, Yi = 1) - P(Xi = 1, Yi = 0)을 귀무가설에서 0 로 놓고 테스트 하는 것이 결국은 어떤 실험전후의 테스트 혹은 기존의 방법과 새로운 방법론 사이에 대한 차이값이 있는지 없는지를 테스트 하는 결과가 된다.
여기서 P1 = P(Xi = 0, Yi = 1) , P2 = P(Xi = 1, Yi = 0) 이라고 한다면 맥니마 검정은 다음과 같이 놓을 수 있다.
H0: |
P1 = P2 for all i |
Ha: |
P1 ≠ P2 for all i |
Test Statistic: |
If b + c > 20, T1 = (b - c)2/(b + c) If b + c ≤ 20, T2 = b 수정된 검정통계량T1: T1' = (|b - c| - 1)2/(b + c) |
Significance Level: |
|
Critical Region: |
T1 > |
그렇다면 실제 데이타를 분석함으로써 이것이 일반적인 카이스퀘어 검정과 어떻게 다른지 완벽하게 이해를 해보도록 하자.
예제 1> 아래와 같이 유세 전후 정당의 지지도의 변화율을 알아보고자 한다. 이때 조사한 사람들은 결국 유세전후 같은 사람들을 대상으로 조사를 해야한다. 그래야 아래와 같은 표를 얻고 우리가 테스트 하려고 하는 가설은 다음과 같다.
|
유세후 |
|
|
유세전 |
A 정당 |
B 정당 |
계 |
A 정당 |
40(p11) |
20(p12) |
60(P1.) |
B 정당 |
10(p21) |
30(22) |
40 |
계 |
50(P.1) |
50(P.2) |
100 |
H0: 유세전 A정당의 지지도는 유세후 B 정당의 지지도와 같다. 즉 이것은 유세전 B정당의 지지도는 유세후 B정당의 지지도와 같다.
이것을 수식으로 나타내면
p11+p12=p11+p21---(1)
P21+p22=p12+p22---(2)
(1), (2)의 방정식을 풀면 결국 p12=p21 이 된다. 따라서 이 가설을 다음과 같이 쓸 수 있다.
H0: p12=p21
이것은 결국 지지율에 변화가 생긴사람들( A->B, 혹은 B->A ) 이 변화율이 차이가 많으냐 아니냐를 테스트 하는 의미가 된다. 그리고 이때 검정 통계량은 다음과 같다.
X^2=[n12-(n12+n21)/2]^2/[(n12+n21)/2]+[n21-(n12+n21)/2]^2/[(n12+n21)/2]
=(n12-n21)^2/(n12+n21)
따라서 이 가설을 검정하면 다음과 같은 결과를 얻는다.
X^2=(20-10)^2/30=3.333 < X^2 ,0.05 = 3.84
유세전후 지지율 차이는 없다고 볼 수 있다.
예제2> Vianna, Greenwald, and Davies(1971) 는Hodgkin's 질병을 앓고 있는 환자들을 조사하였다. 그리고 Tosillectomy이 면역력을 떨어뜨려Hodgkin's 질병을 유발한다는 것을 밝혀내려고 아래와 같은 데이타를 조사하였다. 그리고 이들은 카이제곱검정을 통하여 Chi-square statistics = 14.26 으로 확실히 유의하다는 결론을 얻었다.
|
Tosillectomy 유무 |
|
|
|
Tosillectomy |
No Tonsillectomy |
계 |
Hodgkin's |
67 |
34 |
101 |
Control |
43 |
64 |
107 |
계 |
110 |
98 |
208 |
그리고 Johnson and Johnson (1972) 는 85명의Hodgkin's 질병을 앓은 환자의 5살 차이이내의 성별이 같은 형제들을 조사여 다음과 같은 결과를 얻었다.
|
Tosillectomy 유무 |
|
|
|
Tosillectomy |
No Tonsillectomy |
계 |
Hodgkin's |
41 |
44 |
85 |
Control |
33 |
52 |
85 |
계 |
74 |
96 |
170 |
그리고 이들은 Chi-statistics=1.53 을 얻어Hodgkin's는Tosillectomy와 아무런 관련이 없다는 결론을 얻었다. 그러나 얼마후 많은 사람들이 문제를 제기하였다. 왜냐하면 형제와 환자간은 독립이 아니기 때문에 이렇게 분석을 하면 안된다는 것이 었다.
그리고 이들은 위에서 설명한 맥니마 검정법을 제시하였다.
|
Sibling |
|
|
Patient |
Tosillectomy |
No Tonsillectomy |
계 |
Hodgkin's |
37 |
7 |
44 |
Control |
15 |
26 |
41 |
계 |
52 |
33 |
85 |
이것은 X^2 = 2.91로 P_value=0.09로 Johnson and Johnson의 결과에 상당한 의문을 갖게 하는 결론을 얻었다.
이렇게 맥니마 검정에 대한 설명을 마침니다.
'Data, Modeling, and Decisions' 카테고리의 다른 글
본페로니 검정법 (Bonfenoni Test)란 무엇인가? (0) | 2011.04.07 |
---|---|
표본조사- 오차범위(margin of error 혹은 표본오차범위의 의미, 지지율의 신뢰구간과 샘플크기 결정문제 (0) | 2011.03.28 |
통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용 (0) | 2011.03.26 |
SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출 (0) | 2011.03.25 |
통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0) | 2011.03.23 |