'적합도검정'에 해당되는 글 1건

  1. 2011.02.16 카이제곱 검정(Chi-Square Test)

카이제곱 검정은 카테고리 변수간 차이 혹은 관계를 분석하기 위해서 사용하는 아주 유용한 통계적인 검정법이다. 이것은 직관적으로 카테고리 변수라는 말에서 있듯이 지역과 정치적 선호도, 성별과 상중하 성적레벨, 혹은 음식종류와 비만등과 같은 카테고리 변수를 연구를 하고자 카이제곱 검정은 매우 유용하다.

카이제곱 검정은 크게 다음과 같은 두가지의 다른 상황에서 사용을 있는 상당히 유용한 검정법이다.

1.    적합도 검정 (goodness-of-fit test): 관측된 데이타가 예측한 분포를 따르는지 검정하는 방법이다.  예를 들자면 카지노에 룰렛이 공정하게 만들어졌는가 테트스를 있다. 만약 룰렛이 만들어 졌다면 수백번 돌려서 각각의 숫자에 같은 확률로 떨어져야 하는데  실제 우리가 돌려 테스를 한다고 할때 반드시 같은 확률로 떨어지진 않는다. 그렇다면 어떻게 이것이 제대로 만들어졌는지 테스트 있을까? 바로 이것을 검정하는 것이 적합도 카이스퀘어 검정법이다.

예제> 아래의 표는 주사위를 60 던져서 각각 나온 관측값과 실제 만들어졌다면 각각 1/6 나와야 하므로 기대값은 이때 각각의 셀에 10 된다.

그렇다면 주사위는 제대로 만들어진 것인가?

주사위 눈의 수

관측횟수(Oi)

기대횟수(Ei)

1

16

10

2

5

10

3

9

10

4

7

10

5

6

10

6

17

10

Total

60

60

 

이것을 테스트 하는 방법은

  

                                  = 13.6

으로  자유도 5 ( 전체카테고리 수에서 1 ) 갖는 카이제곱 분포를 따른다.

이것의 p-value 1.8%이다. , 주사위는 공정하게 만들어졌다고 없다는 결론을 얻는다.

2.    독립성검정 (Testing Independence) : 두개의 확률변수(random variables) 서로 독립인지를 검정하는 방법이다. 예를 들면 흡연과 폐암, 교육수준과 수입,  나이와 정당선호도와 같은 인과관계 혹은 관련 변수들이 서로 독립인지테스트 하는 방법이다. 여기서 독립이라는 의미는 인과관계 혹은 연관이 없다는 말이 있다.

예제> 일반적으로 학교에서 남자들이 많이 문제를 일으킨다는 인식이 있는데 정말 그런지 독립성 테스를 해보자.

 

Got in Trouble

No Trouble

Total

Boys

46 (40.97)

71 (76.02)

117

Girls

37 (42.03)

83(77.97)

120

Total

83

154

237

 

자유도 3 갖는 카이스퀘어 통계량

 

 

이것은 p-valuep< 20% 이므로 남학생이 여자보다 학교에서 문제를 많이 일으킨다고 없다.

여기서 주의할 것은 카이제곱검정은 독립성만 테스트 하는 것이지 남학생이 여자보다 문제를 일으킨다는 것을 테스트하는 것은 아니다. 관련이 없는지 있는지만을 테스트한다고 생각하면 된다. 남학생이 여자보다 문제일으키는지에 대한 테스트는 odds ratio 이용해야한다. 독립성 테스트에서 독립이 아니라는 결론을 얻고 후에 말이다.

 


Posted by wishart
,