기초통계 정리 : 분산, 공분산, 상관계수, 적률생성함수 그리고 통계적으로 독립일때 계산하는 것을 정리하였다.
Variance, Covariance, Correlation, Moment generated function, 그리고 independence

통계학을 공부할때 가장 기본이 되는 것인데 이것들이 오래되면 헛갈리기도 하고 배울땐 쉽다고 생각했는데 요즘 슬라이드를 기본으로 이용하다 보니 초스피드 강의에 가끔 다시 통계학 책을 뒤적일때가 있다.
이럴때를 대비해서 정리를 해보았다.

통계학을 배우고 가물가물한 분들이나 아니면 지금 한참 배우고 있는 분들은 이것을 참고하면 쉽게 정리가 될 것이라 생각한다.
물론 이것은 통계학 전공자들과 경영학을 전공하는 분들에게도 도움이 될 것 이라 생각합니다.

Posted by wishart
,

 라플라스 succession rule- 베이지안 통계 (Bayesian Statistics)

 

천재 수학자 라플라스(Laplace)는

What’s the probability that the sun will rise tomorrow, given that it has been doing so every morning on earth for 4.5 billion years?.

즉, 지구에서 45억년 동안 아침에 해가 떴는데 그렇다면 내일도 해가 뜰 확률은 얼마인가?


에 대해서 답을 제시하려고 하였다. 이 문제는 현대 수학자 및 통계학자 사이에서도 뜨거운 이슈가 되기도 하였다.

여러분들은 쉽게 답을 찾을 수 있을까요? 라플라스의 내일 아침에도 해뜰 확률은동전을 n 번 던졌는데 전부 n번이 앞면이 나왔다. 그렇다면 n+1번째 동전이 앞면이 나올 확률이 얼마인지를 계산하는 문제와 같다고 생각을 하였다.

누구가는 이것을 계산할때 한마디로 간단하죠. 1입니다라고 답할겁니다. 왜냐면 지금까지 전부 n번이 나왔으니깐요.

그럼 지금까지 n번을 던져서 s번이 앞면이 나왔다면 그 확률을 단순히 s/n이라고 할 것이다. 따라서 우리는 이것을 일반화된 수식으로 쓴다면

이라고 할 수 있을 것이다.

그렇다면 여기서 s=n이거나 n=0이라면 이 수식은 성립할까? n=0 이라는 말은 동전을 한 번도 안던졌는데 지금 동전을 던지면 앞면이 나올 확률이 얼마이냐는 질문과 같다. 이렇게 물어보면 우리는 쉽게 동전에 공정하게 잘 만들어졌다면 당연히 1/2이라고 대답할 것이다. 그렇다면 위의 식은 틀린 답이 된다. 또한 s=n이라고 하면 동전을 n번을 던져서 앞면이 n번이 나왔는데 다음에 동전을 던졌을때 앞면이 나올 확률은 얼마인지를 계산하는 문제와 같다. 위의 식에 의하면 1이 된다. 따라서 이것도 설명이 충분히 되지 못한다. 

라플라스는 이 확률계산을 미리 두번을 던진 것처럼 하고 그중에 한번이 성공할 확률값으로 계산을 하였다. 위의 예에서는 (s+1)/(n+2) 이된다.  왜냐하면 지금까지 성공한 횟수에서 미리 2번을 던진 것처럼하고 그 중에서 1번이 성공할 확률을 계산하기 때문이다. 우리는 다음에 나올 동전이 앞면인지 뒷면인지 알 수 없기 때문에 결국 1/2의 확률값을 부여한 것이기 때문이다.

이것을 수식으로 다음과 같이 증명을 할 수 있다. 라플라스는 이것을 베이즈 정리를 사용해서 증명을 하였는데 이게 베이지안통계의 시조라 할 수 있을 것 같다.

어떤 사건이 연속해서 n번이 발생하고 다음에 사건이 발생할 확률은 얼마일까? 다시 처음 질문으로 돌아가면 지구가 45억년전에 생성되었고 매일 해가 떴을때 내일도 해가 뜰 확률은 얼마일까?  라플라스는 해가 뜰 확률이 무엇인지 알 수 없으므로 이때  해뜰 확률 자체는 일량분포(uniform distribution) 따른다고 가정하였다. 일량분포란 0에서 1까지 랜덤하게 확률이 발생할 수 있다는 것을 의미한다. 통계의 전문용어로 베이지안통계에서 이것을 사전확률분포(Prior distribution)하고 한다. 

베이지안들은 이렇게 어떤 모수에 대한 분포만을 가정함으로써  훌륭한 추정로직을 개발하였다. 아래 식을 보자. 아래식은 동전을 n번 던졌을때 s번이 앞면이 나올 확률을 계산하는 식이다. 물론 정확히는 (n,s)가 앞에 있어야 하지만 결국 나중에 날아가게 될 것이라서 이렇게만 두자. 여기서 우리는 해뜰 확률 p값이 어떻게 변할지 모른다. 그래서 이것은 확률이 0에서 1까지 랜덤하게 변하는 일량분포를 가정하는 것이다.

 

이렇게 두면 베이즈 정리를 활용해서 사후확률분포(posterior distribution) 구할 있다. p를 결합확률분포식에서 좀 헛갈릴 수 있으니 theta로 쓰자.


문제에서는 n번 연속 동전을 던져서 x번이 앞면이 나왔을때 그 다음에 던진 동전이 앞면이 나올 p의 확률분포함수를 구할 있고 해뜰 확률 p 기대값이 결국은 내일도 해가 뜰 확률값이 된다.

 




따라서 이 사후확률분포를 갖는 theta 의 기대값이  E(theta)=(x+1)/(n+2) 된다. 위의 식은 결국 베타분포이므로 베타분포의 평균값은 (x+1)/(n+2)이기 때문에 여기서 x가 n이 되기 때문이다.

즉, n번의 실행에서 n번이 동전의 앞면이 나오고 다음에 던진 동전이 또 앞면일 확률은 (n+1)/(n+2) 이 된다.


Posted by wishart
,

Normal Distribution Calculator

Normal Distribution - Calculator
To Calculate Normal Distributions:
Mean (m) :    SD (σ) :

Below :
Above :
                 Between :  and   


Results:
Normal Distribution:

 
   
Posted by wishart
,

서로 다른 모집단의 평균 비교 검정력(1-beta), 신뢰구간이 주어졌을때 표본크기(샘플사이즈) 결정

시간이 지나면서 아주 헛갈리는 통계학의 주제중의 하나가 서로 다른 모집단에서 표본추출을 해서 평균값을 비교하는 경우이다.

예를 들면 두집단의 평균값  차이의95% 신뢰구간의 상한값과 하한값의 차이(width )값이  2 이하로 떨어지게 하고 싶을때 얼마나 많은 샘플(표본)  뽑으면  될까?  또는 가설검정의 검정력을 50% 두고 두집단의 평균값 차이가 2 되게 만들고 싶을때 얼마나 많은 표본을 수집해야 하는가?

이런 예는 현실에서도 상당히 많이 적용될 있는 것들인데 시간이 지나서 계산하려 하면 쉽게 이해가 되질 않는 것이 사실이다. 그래서 간단한 예와 함께 정리를 해보았다.

모집단에서 독립적으로 각각 n개의 샘플을 추출한다고 하자. 이들 각각의 분포의 표준편차는 10으로 알려져 있다. 이때 다음에 대해서 생각을 해보자.

(1)    모집의 평균차이 95% 신뢰구간의 상한값과 하한값의 차이(width) 2 갖게 만들고 싶을때 우리는 얼마나 많은 샘플을 추출해야 하는가?

<정답>

 

 

(2)  '  H0: 두집단의 평균차는 없다  vs H1: X모집단이 평균이 Y 모집단의 평균보다 크다' 에 대한 가설검정에서 평균차이는 2이고 type1 error 10%라고 할때  검정력이 50% 되기 위해서는 얼마나 많은 샘플을 뽑아야 하는가?

<정답>


그럼 도움이 되길...
Posted by wishart
,

설문방법은 대답하기 곤란한 설문을 하는 경우 보다 정확한 답을 얻기 위해서 개발된 방법으로 처음에Warner (1965) 의해서 개발이 되었다. 아마 이것을 접하는 분은 통계의 위대함을 새삼 깨닫게 되는 즐거움을 얻게 같다.  방법은 가령 다음과 같은 설문을 하고자 아주 유용하다.

1.      당신은 마약을 해본 적이 있습니까?

2.      당신은 혼전에 유산 경험이 있습니까?

3.      당신은 가게에서 물건을 훔친 적이 있습니까?

4.      당신은 당신 부인 몰래 다른 여자와 6개월 내에 자본 적이 있습니까?

이런 질문을 받는 사람들이 정확한 답변을 하지 않을 것이라는 것은 쉽게 예상할 있다.

문제를 해결하는데 2가지 방법이 있다.

방법 1 : Warner(1965)

Warner (1965) 2가지 질문: (1) 나는 마약을 해본적이 있다(Qs) (2) 나는 마약을 해본적인 없다(Qc). 이런 질문지를 앞에 둔다. 그리고 주사위를 던져서 1, 2, 3, 4 가 나오면 (1) 질문에 대답을 하고 5, 6이 나오면 (2)번 질문에 답을 한다. 이때 설문조사자는 응답자가 어떤 질문에 어떻게 대답했는지 알 수 없고 단지, Yes 또는 No 의 전체 횟수와 주사위가 전체 분포가 어떻게 나왔는지만을 기록한다. , (1) (2) 번 질문이 전체 몇 번 나왔는지. 즉 개개인이 어떤 질문에 대답했는지 알수 없다. 그렇다면 이때 마약을 해본 경험이 있는 사람의 비율을 어떻게 알 수 있을까?

즉 정리하면 이 설문 방법으로 알 수 있는 것은 다음과 같다. 100번의 시행이 있었다면 우리는 주사위가 4/6 가 나올 확률이 66.6%라는것을 알기 때문에 (1)에 대한 응답이 전체에 66.6번이 나오고 (2)에 대한 답이 33 번이라는 것을 알 수 있다. 아래 표에서는 Yes라고 답한 것이 100중 20이라고 가정하였다.

 

질문\대답 Yes No Total
(1) 나는 마약을 해본적이 있다 q  67 (=p) 
(2) 나는 마약을 해본적인 없다 1-q 33(=1-p)
Total 20(=# yes) 80 100

이런 정보를 기초로 해서 우리는 조건부확률을 활용해서 원래 추정하려고 하는 마약해본 경험이 있는지를 추정한다.

(1) 나는 마약을 해본적이 있다(Qs)에 대해서 라고 대답한 확률을 q라고 하면 (2) 나는 마약을 해본적인 없다(Qc)에 대한 질문에 라고 대답할 확률은 1-q이다. 그리고 p (1) 번 질문에 대답할 확률이라고 하자. , 위의 예에서는 주사위가 1, 2, 3, 4 가 나올 확률 66.6%가 된다.

그렇다면 이때 전체 마약해본 경험이 있어요라고 대답할 확률은 어떻게 될까? 우리가 흔히 고등학교때부터 배운 베이즈 정리로 알려진 조건부 확률을 이용하면 간단히 해결이 된다.

P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*q+(1-p)*(1-q)

따라서, p=[P(yes) – (1-q)] / [2q-1]

p의 추정치는 X(=sum of xi)가 예라고 대답한 전체 사람수라고 하고 n이 전체 샘플수라고 하면 다음과 같다.

          Estimates p = [ X/n – (1-q) ] / (2q-1)

그렇다면 여기서 q=1, q=1/2, 또는q=0 이라면 어떤 일이 생길까?

q=1 이라는 의미는 질문지가 모두 (1)이라는 의미이고 q=0이라는 의미는 질문지가 모두 2이고 q=1/2라는 것은 50 50이라는 의미가 된다.

그런데 여기서 추정치 p의 분산을 계산하면 다음과 같다.

Warner 설문조사에서

Variance V(estimation for p) = p*(1-p)/n + q*(1-q)/[n*(2q-1)^2]

 

방법 2 : 관련없는 질문 (Innoccuous Question method)

Warner(1965) 질문이 완전히 서로 Exclusively 질문을 던지지만 이것은 두번째 질문을 다음과 같이 전혀 원래 질문의 의도와 관련이 없는 질문을 던진다. 그렇지만 우리가 충분히 확률적으로 예라고 대답할 확률을 있도록 설계를 한다.
다음과 같은 두 질문지가 있다.

(1) 나는 마약을 해본적이 있다(Qs)

(2) 동전을 던져라. 앞면인가? 예 또는 아니오

따라서

질문\대답 Yes No Total
(1) 나는 마약을 해본적이 있다 r                 67(=p) 
(2) 던진 동전이 앞면이다. alpha 33(=1-p)
Total 20(=# yes) 80 100

동전의 앞면이 나올 확률이기 때문에 이미 확률값을 알고 있는 r= P(yes given question 2) 이라고 하면 다음과 같은 식을 얻을 수 있다.
여기서 p는 (1)"나는 마약을 해본적이 있다(Qs)"번에 대해서 답변을 할 확률이고 q는 Waner의 설계처럼 (1)질문에 예스라고 대답할 확률이다. 여기서 우리는 실제 이 값은 알 수 없다. 또한 alpha는 (2)번 질문에 대해서 'Yes'라고 대답할 확률이다. 동전을 던졌으니 여기서는 1/2 이 될 것이다.
그렇다면 확률값은 다음과 같이 계산될 수 있다.

P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*r+(1-p)*alpha

따라서, p=[P(yes) – (1-r)] / [2r-1]

이때 추정치 p의 분산은

Var(estimator for p) = p(1-p)/n + [(1-q)^2 *r*(1-r)+r*(1-p)]/n*q^2 이 된다.

좀 복잡하지만 알고 나면 간단한 문제이다.
아주 똑똑한 설문 디자인이 아닐 수 없다. 이에 대한 자세한 정보는 위키에도 정리가 잘 되어 있다.

여기서 p가 커지면 분산은 적어지고 alpha가 클때 분산이 작아지는 경향이 있다.
그렇지만 이것이 진리는 아니라는 것을 기억하자.

Posted by wishart
,

스포츠에서 붉은색 유니폼을 입으 승리할 확률이 높아진다 말은 사실일까?

아래 전문은 2006 6 10일자 동아일보에 게제된 뉴스이다.

러셀 교수는 과학학술지네이처’ 5월호에붉은색 유니폼을 입으면 승리할 확률이 훨씬 높아진다 발표해 논란에 쐐기를 박았다.

실력 비슷하면 붉은색 유니폼 승률 60%


연구팀은 2004 아테네 올림픽 경기 권투, 태권도, 레슬링 그레코로만형과 자유형 4 격투기 종목을 분석했다. 경기자들은 파란색과 붉은색 유니폼 하나를 입는다. 연구 결과 붉은색 유니폼을 입은 선수의 승률이 55% 절반을 넘었다. 붉은색의 승률이 가장 높은 종목은 태권도였다. 러셀 박사는경기자의 실력이 서로 비슷하면 붉은색 유니폼의 승률은 60% 올라간다 말했다.

연구팀은 유럽축구대회인 유로2004 참가한 각국 대표팀의 승률도 함께 조사했다. 이들은 두어 가지 다른 색의 유니폼을 번갈아 입는데 붉은색 유니폼을 입었을 승률이 높아지는 것은 물론 골도 많이 넣었다.
....

그리고 이후로도 언론에서는 연구를 거듭  언급하면서  붉은 유니폼을 입으면 이길 확률이 높아진다는 것을 기정사실화 하였다.  그렇지만 연구는 통계적으로 못된 것으로 드러났는데 분석을 해보고자 한다. 아래 표는 Hill and Barton(2005) 의해서 수집된 데이타이다. 각각의 문제를 따라 가면서 분석을 해보자.

종목

Blue 유니폼

Red 유니폼

합계

권투(B)

120

148

268

레슬링 그레코로만형(GW)

24

27

51

레슬링 자유형(FW)

23

25

48

태권도(TaeKwon)

35

45

80

합계

202

245

447

%

45.19%

54.81%

100%

 

1.       먼저 귀무가설(null hypothesis) ‘각각의 종목에서 빨간색 유니폼을 입은 팀과 파란색 유니폼을 입은 팀의 승률은 50% 같다’ vs  대립가설 각각의 종목에서 두팀의 승률은 같지만 50% 아니다 테스트해보자.

우도함수(Likelihood ratio)  

여기서 우리는 붉은색 유니폼 팀이 이긴 횟수, 파란색 유니폼을 이긴 횟수, N 전체 승리한 횟수,     추정될 있다.

따라서 이때 피어슨 카이 검정 통계량(Pearson's Chi-square statistics) 다음과 같이 계산된다.

이때 자유도 1 카이검정통계량의 p_value 0.04로이다. 결과에 따르면 통계적으로  각각의 종목에서 두팀의 승률은 같지만 50% 아니라는 것을 있다. , 연국팀이 전체적으로 붉은 유니폼을 입은 팀이 승리할 확률이 55% 높다고 이야기하는 것은 가설을 테스트한 것이라고 있다.

따러서 가설에 의한 검정결과로 붉은색 유니폼을 입은 팀이 스포츠에서 이길 확률이 높다는 것은 논리적으로 맞는 말이 아니다.

이것을 제대로 테스트를 하려면 다음( 2) 같은 가설을 세워야 한다.

2.      먼저 귀무가설(null hypothesis) ‘각각의 종목에서 빨간색 유니폼을 입은 팀과 파란색 유니폼을 입은 팀의 승률은 50% 같다’ vs  대립가설 (alternative hypothesis)‘각각의 종목에서 두팀의 승률은 다르고 확률이 50% 아니다 테스트해보자

자유도 3에서 카이제곱 통계량은 0.3015 갖고 p value 0.9597 통계적으로 유의하지 않다.

따라서 붉은 유니폼을 입은 팀이 승리할 확률이 높다는 것은 사실이 아니라고 있다. 연구팀은 단순 전체 승률을 비교한 것으로 (1) 번의 테스트를 고려한 것이고 셀제로 이렇게 테스트를 해야한다.

이게 바로 통계의 미학이 아닐까 생각한다.

재미있는 이야기라서 정리해서 올려둔다.


Posted by wishart
,

상관계수가 통계적으로 유의하다는 말을 그래프를 보고 말할 있을까?

베트남 전쟁 당시 미국으로 보낼 군인을 뽑는데 전쟁에 참여하기 싫은 군인들을 보내는 방법으로 공에 1에서 366이라는 숫자를 쓰고 이중에서 처음에 뽑아서 나온 숫자와 일치하는 생일을 갖는 군인이 1순위 차출대상자 2번째 뽑아서 나온 숫자와 일치하는 생일인 군인이 2차 차출대상자로 분류하였다. 그런데 이것은 확률적으로 공정하지 못하다고 군인들을 문제를 제기했는데 아래 그래프는 생일과 넘버와의 관계를 그린 그래프이다. 이것을 보고 여러분은 날짜와 복권의 draft number 어떤 경향을 갖는다고 말할 있을까?

아마도 대답은 상관관계는 무조건 0 것입니다 라고 대답을 것입니다.

그렇다면 우리가 알고 있는 피어슨 상관계수( Pearson’s Correlation) 구하면 얼마나 나올까요? 제가 직접 SAS 값을 구한 것은 -0.22604 얻었습니다.

이것이 의심스러워서 미모수 통계학의 순위를 이용한 상관계수 값을 구했더니 엮시  -0.2258 얻었습니다.

값은 낮은 것일까요? 아니면 높은 것일까요? 데이타  갯수가 366개로 적지 않으므로 SAS 정규근사 시켜서 가설검정을 했더니  p_value 0.0001보다 작은 것으로 나와 매우 유의하다는 결론을 얻었습니다.

이게 이해가 안된다고 있죠?

그래서 퍼뮤테이션테스트 ( 다른 말로는 잭나이브방법) 활용해서 366개의 순서를 바꿔서 상관계수를 전부 구한다음 이때 위에서 구한 상관계수-0.22604 분포에서 어디에 위치하는지를 구해보았습니다. 실제로 그래프는 366! 구하는 것이 시간이 많이 걸릴 같아 1,000개만 구했습니다. 그리고 상관계수-0.22604 1000개중에서 2번째로 작은값이 더군요. , p_vlaue 0.001 됩니다.

값은 유의하다고 있죠?

이렇게 봐도 이해가 안된다고 하실 분이 있을 같습니다.

그래서 월별 박스그래프(box plot) 그려보았습니다.

위의 그래프를 보듯 날짜가 커짐에 따라 중간값이 작아짐을 있습니다. 음의 상관관계가 있다는 것을 있죠.

우리가 그래프의 산점도만 보고 상관성을 판단할때 오류가 생길 있습니다.

이것은 그런 문제를 보여주는 아주 좋은 예라고 있습니다.

Posted by wishart
,

통계학에서 본페로니 검정법(Bonfenoni  test, correction or ajustment)이라고 있다.  많은 분들에게  생소한 개념이라고 생각할 수도 있는데 개념은 아주 간단하다.

예를 들어 설명하자면 우리가 서로 독립인   종류 이상의 테스트(K) 한다고 하자. 이때  유의수준을 5% 놓고 싶다면 각각의 테스트에 대해서 유의수준을  전체 테스트 갯수로 나눈 유의수준으로 테스트 해야 실제 우리가  원하는 5% 유의수준으로 테스트하는 결과를 얻을 있다는 말이다.

쉽게 이야기 해서 우리가 2개의 가설을 테스트 한다고 하자. 이때 우리가 유의수준 (significance level) 5%라고 놓고 가설을 테스트를 했다. 그리고 우리는 가설의 테스트에서 유의하다고 나왔다고 해도 실제 5% 유의수준으로 테스트 것이 아니다. 왜냐하면 테스트의 실제 유의수준은 다음과 같이 계산되기 때문이다.

1         -   (1-0.05)^2 = 1-0.9025 = 10%

된다.

따라서 우리가 서로 독립이 가설 대해서 K 테스트 한다면 본페로니 테스트 각각의 테스트의 유의수준은 alpha/K 된다. (전체 유의수준을 alpaha 놓고 싶을때…)

왜냐면 우리가 각각의 테스트에서 유의수준을 alpaha로 놓더라도 전체 유의수준은 위에서 계산된 것 처럼

True singnificance level = 1 - (1-alpha)^k

가 되기 때문이다.

이것은 통계학에 다중평균비교에서 설명되곤한다.
왜냐면 3개 그룹이 있을때 이들 평균이 모두 같은지 테스트하고 싶을때 실제 테스트를 2번을 해야 하기 때문이다.

이렇게 독립적인 여러 귀무가설을 테스트 할 때 유의수준을 보정하는 방법이
 본페로니(Bonfenoni) 테스트 혹은 본페로니 보정법이라고 한다.

 

Posted by wishart
,
TV나 뉴스에서 자주 표본조사결과 발표에서 누구의 지지도는 얼마인데 신뢰구간 95%에서 오차범위 -3% ~ 3% 이라고 하는 경우를 많이 접했을 것이다. 이것이 정확히 어떤 의미일까? 한 번 생각해볼 만하다.

예를 들어 다음 대선에 대한 사전 표본조사결과  유시민 지지도가 53%이고 95% 신뢰구간에 표본오차범위는 -3% ~ +3%라고 한다면 이것의 의미는 유시민의 실제 지지도는 50% ~ 56%에 떨어질 가능성이 95%라고 말할 수 있다는 의미이다.

 표본오차를 통계적으로 정확히 설명하기 전에 먼저 유시민의 지지도가 53%일때 이때 95%의 신뢰구간을 구해보자.이때 95% 신뢰구간 (confidence Interval) 다음과 같이 계산된다. 2는 평균 0, 표준편자 1 인 표준정규분포 누적확률함수의 값이 97.5%가 되는 x값이다. 정확한 값은 1.96이나 계산의 편의를 위해서 실용적으로 필드에서는 보통 2로 계산을 한다. 아래는 이것을 쉽게 이해하기 위한 참고 그래프이다. 아래 x값이 1.96 일때 누적 확률이 0.975임을 볼 수 있다.




따라서 샘플크기가 30보다 크면 중심극한정리에 의해서  위의 도표에서 Mu는  샘플 지지도(proportion) ps로,표준편차 sigma는 [p*(1-p)/(n-1)]^0.5 로 대체 될  수 있다. 따라서 이때 95%  신뢰구간은 다음과 같이 표현된다.


그럼 지금 부터는  표본오차에 대해서 설명을 한다. 표본오차란 실제 유시민의 지지도 p와 표본에서 계산된 유시민의 지지도 p*의 차이의 절대값이다.

즉, 표본오차(margin of error)=|ps - p|

따라서 위의 신뢰구간에서 Ps를 빼면 표본오차를 계산할 수 있는데 결국은


이 부분이 신뢰구간 95%(alpha값이 5%라고 가정)에서 표본오차가 된다. 

바로 이것이 표준오차이다. 여기서 샘플크기 n은 분산의 unibiased estimator를 만들기 위해서 n-1로 계산하는 경우도 종종 있으니 n-1이 나오더라도 너무 긴장할 필요는 없다.

다음은 그렇다면 우리가 표본을 추출하기 전에 샘플사이즈를 얼마로 계산하면 표본오차를 3%이내로 할 수 있을까 하는 의문이 들 것이다. 즉 샘플크기를 결정하는 문제이다. 왜냐면 샘플 크기는 곧 표본조사에서 비용을 의미하기 때문에 아주 중요하다.

우리가 샘플사이즈를 결정하는 문제는 아래 그래프에서 보듯이 p=0.5 일때 불확실성이 가장 높아져 실제 분산이 가장 커진다. 직관적으로 누가 당선된 확률이 1/2 이라고 이야기 할때 가장 불확실성이 높은 것이라는 것을 알 수 있다.




따라서 샘플사이즈를 계산할때는 가장 보수적으로 불확실성이 높은 것으로 p를 계산한다.
위에서 식에서
표본오차 3% =


이므로 이것을 풀면  n=1111  약 111개의 샘플을 추출해야한다.
그렇다면 표본오차를 2% 내로 줄이려면 샘플을 얼마나 뽑아 하는가? 2%^2=1/n 이므로  n=2500개를 뽑아야 한다. 여기서 의문을 갖을 것이다.
왜 샘플오차는 3%에서 2%로 1/3 밖에 안줄었는데 샘플은 2배 이상을 뽑아야 하는가?
이것은 표본오차와 샘플수의 관계가 제곱근의 역수의 관계가 있기 때문이다.

그럼 여기서 설명을 마친다.

Posted by wishart
,

맥니마 검정은 개의 변수가 paired 되어 있을때 사용할 있는 테스트로 우리가 흔히 접하는 카이스퀘어의 독립성검정이나 적합성 검정법과는 다르다. 검정법은 의학통계나 사회과학에서 많이 사용되고 있다.

우리가 흔히 범할 있는 오류로 변수가 합께 쌍을 이루고(독립이 아니다) 있음에도 불구하고 일반적인 카이스궤어 검정을 하면 통계적으로 매우 유의하게 나올 있는 상황에서도 유의하지 않다고 나오는 경우가 많다.  따라서 데이타의 성질을 제대로 파악하고 통계방법론을 적용해야 한다.

아래 테이블은 2개의 paired변수가 다음과 같이 있을때 실제 테스트 하고자 하려는 목적은 이들의 독립성이 아니라 확률 (0,1) (1,0)의 확률값이 같은지를 테스트를 하고자 한다.

Yi = 0

Yi = 1


Xi = 0

a

b

Xi = 1

c

d


맥니마 검정(McNemar test) 다음과 같은 가정을 한다.

1.     (Xi,Yi) 는 상호 독립이다.

2.    각각의 Xi  Yi 는 두개의 가능한 결과를 갖는다. 0 아니면 1의 카테고리 값을 갖는다.

3.    차이값= P(Xi = 0, Yi = 1) - P(Xi = 1, Yi = 0) 귀무가설에서 0 놓고 테스트 하는 것이 결국은 어떤 실험전후의 테스트 혹은 기존의 방법과 새로운 방법론 사이에 대한 차이값이 있는지 없는지를 테스트 하는 결과가 된다.

 

여기서 P1 = P(Xi = 0, Yi = 1) , P2 = P(Xi = 1, Yi = 0) 이라고 한다면 맥니마 검정은 다음과 같이 놓을 수 있다.

H0:

P1 = P2       for all i

Ha:

P1 ≠ P2       for all i

Test Statistic:

If b + c > 20,

T1 = (b - c)2/(b + c)

If b + c ≤ 20,

T2 = b

수정된 검정통계량T1:

T1' = (|b - c| - 1)2/(b + c)

Significance Level:

Critical Region:

T1 >

그렇다면 실제 데이타를 분석함으로써 이것이 일반적인 카이스퀘어 검정과 어떻게 다른지 완벽하게 이해를 해보도록 하자.

예제 1> 아래와 같이 유세 전후 정당의 지지도의 변화율을 알아보고자 한다. 이때 조사한 사람들은 결국 유세전후 같은 사람들을 대상으로 조사를 해야한다. 그래야 아래와 같은 표를 얻고 우리가 테스트 하려고 하는 가설은 다음과 같다.

 

유세후

 

 

유세전

A 정당

B 정당

A 정당

40(p11)

20(p12)

60(P1.)

B 정당

10(p21)

30(22)

40

50(P.1)

50(P.2)

100

 

H0: 유세전 A정당의 지지도는 유세후 B 정당의 지지도와 같다. 이것은 유세전 B정당의 지지도는 유세후 B정당의 지지도와 같다.

이것을 수식으로 나타내면

p11+p12=p11+p21---(1)

P21+p22=p12+p22---(2)

(1), (2) 방정식을 풀면 결국 p12=p21 된다. 따라서 가설을 다음과 같이 있다.

H0: p12=p21

이것은 결국 지지율에 변화가 생긴사람들( A->B, 혹은 B->A ) 변화율이 차이가 많으냐 아니냐를 테스트 하는 의미가 된다. 그리고 이때 검정 통계량은 다음과 같다.

X^2=[n12-(n12+n21)/2]^2/[(n12+n21)/2]+[n21-(n12+n21)/2]^2/[(n12+n21)/2]

      =(n12-n21)^2/(n12+n21)

따라서 가설을 검정하면 다음과 같은 결과를 얻는다.

X^2=(20-10)^2/30=3.333 < X^2 ,0.05 = 3.84

유세전후 지지율 차이는 없다고 있다.

예제2> Vianna, Greenwald, and Davies(1971) Hodgkin's 질병을 앓고 있는 환자들을 조사하였다. 그리고  Tosillectomy 면역력을 떨어뜨려Hodgkin's 질병을 유발한다는 것을 밝혀내려고 아래와 같은 데이타를 조사하였다.  그리고 이들은 카이제곱검정을 통하여 Chi-square statistics = 14.26 으로 확실히 유의하다는 결론을 얻었다.

 

Tosillectomy 유무

 

 

 

Tosillectomy

No Tonsillectomy

Hodgkin's

67

34

101

Control

43

64

107

110

98

208

 

그리고 Johnson and Johnson (1972) 85명의Hodgkin's 질병을 앓은 환자의 5살 차이이내의 성별이 같은 형제들을 조사여 다음과 같은 결과를 얻었다.

 

Tosillectomy 유무

 

 

 

Tosillectomy

No Tonsillectomy

Hodgkin's

41

44

85

Control

33

52

85

74

96

170

그리고 이들은 Chi-statistics=1.53 얻어Hodgkin'sTosillectomy와 아무런 관련이 없다는 결론을 얻었다. 그러나 얼마후 많은 사람들이 문제를 제기하였다. 왜냐하면 형제와 환자간은 독립이 아니기 때문에 이렇게 분석을 하면 안된다는 것이 었다.

그리고 이들은 위에서 설명한 맥니마 검정법을 제시하였다.

 

Sibling

 

 

Patient

Tosillectomy

No Tonsillectomy

Hodgkin's

37

7

44

Control

15

26

41

52

33

85

 

이것은 X^2 = 2.91 P_value=0.09 Johnson and Johnson 결과에 상당한 의문을 갖게 하는 결론을 얻었다.

이렇게 맥니마 검정에 대한 설명을 마침니다.

Posted by wishart
,