서로 다른 모집단의 평균 비교 검정력(1-beta), 신뢰구간이 주어졌을때 표본크기(샘플사이즈) 결정

시간이 지나면서 아주 헛갈리는 통계학의 주제중의 하나가 서로 다른 모집단에서 표본추출을 해서 평균값을 비교하는 경우이다.

예를 들면 두집단의 평균값  차이의95% 신뢰구간의 상한값과 하한값의 차이(width )값이  2 이하로 떨어지게 하고 싶을때 얼마나 많은 샘플(표본)  뽑으면  될까?  또는 가설검정의 검정력을 50% 두고 두집단의 평균값 차이가 2 되게 만들고 싶을때 얼마나 많은 표본을 수집해야 하는가?

이런 예는 현실에서도 상당히 많이 적용될 있는 것들인데 시간이 지나서 계산하려 하면 쉽게 이해가 되질 않는 것이 사실이다. 그래서 간단한 예와 함께 정리를 해보았다.

모집단에서 독립적으로 각각 n개의 샘플을 추출한다고 하자. 이들 각각의 분포의 표준편차는 10으로 알려져 있다. 이때 다음에 대해서 생각을 해보자.

(1)    모집의 평균차이 95% 신뢰구간의 상한값과 하한값의 차이(width) 2 갖게 만들고 싶을때 우리는 얼마나 많은 샘플을 추출해야 하는가?

<정답>

 

 

(2)  '  H0: 두집단의 평균차는 없다  vs H1: X모집단이 평균이 Y 모집단의 평균보다 크다' 에 대한 가설검정에서 평균차이는 2이고 type1 error 10%라고 할때  검정력이 50% 되기 위해서는 얼마나 많은 샘플을 뽑아야 하는가?

<정답>


그럼 도움이 되길...
Posted by wishart
,
TV나 뉴스에서 자주 표본조사결과 발표에서 누구의 지지도는 얼마인데 신뢰구간 95%에서 오차범위 -3% ~ 3% 이라고 하는 경우를 많이 접했을 것이다. 이것이 정확히 어떤 의미일까? 한 번 생각해볼 만하다.

예를 들어 다음 대선에 대한 사전 표본조사결과  유시민 지지도가 53%이고 95% 신뢰구간에 표본오차범위는 -3% ~ +3%라고 한다면 이것의 의미는 유시민의 실제 지지도는 50% ~ 56%에 떨어질 가능성이 95%라고 말할 수 있다는 의미이다.

 표본오차를 통계적으로 정확히 설명하기 전에 먼저 유시민의 지지도가 53%일때 이때 95%의 신뢰구간을 구해보자.이때 95% 신뢰구간 (confidence Interval) 다음과 같이 계산된다. 2는 평균 0, 표준편자 1 인 표준정규분포 누적확률함수의 값이 97.5%가 되는 x값이다. 정확한 값은 1.96이나 계산의 편의를 위해서 실용적으로 필드에서는 보통 2로 계산을 한다. 아래는 이것을 쉽게 이해하기 위한 참고 그래프이다. 아래 x값이 1.96 일때 누적 확률이 0.975임을 볼 수 있다.




따라서 샘플크기가 30보다 크면 중심극한정리에 의해서  위의 도표에서 Mu는  샘플 지지도(proportion) ps로,표준편차 sigma는 [p*(1-p)/(n-1)]^0.5 로 대체 될  수 있다. 따라서 이때 95%  신뢰구간은 다음과 같이 표현된다.


그럼 지금 부터는  표본오차에 대해서 설명을 한다. 표본오차란 실제 유시민의 지지도 p와 표본에서 계산된 유시민의 지지도 p*의 차이의 절대값이다.

즉, 표본오차(margin of error)=|ps - p|

따라서 위의 신뢰구간에서 Ps를 빼면 표본오차를 계산할 수 있는데 결국은


이 부분이 신뢰구간 95%(alpha값이 5%라고 가정)에서 표본오차가 된다. 

바로 이것이 표준오차이다. 여기서 샘플크기 n은 분산의 unibiased estimator를 만들기 위해서 n-1로 계산하는 경우도 종종 있으니 n-1이 나오더라도 너무 긴장할 필요는 없다.

다음은 그렇다면 우리가 표본을 추출하기 전에 샘플사이즈를 얼마로 계산하면 표본오차를 3%이내로 할 수 있을까 하는 의문이 들 것이다. 즉 샘플크기를 결정하는 문제이다. 왜냐면 샘플 크기는 곧 표본조사에서 비용을 의미하기 때문에 아주 중요하다.

우리가 샘플사이즈를 결정하는 문제는 아래 그래프에서 보듯이 p=0.5 일때 불확실성이 가장 높아져 실제 분산이 가장 커진다. 직관적으로 누가 당선된 확률이 1/2 이라고 이야기 할때 가장 불확실성이 높은 것이라는 것을 알 수 있다.




따라서 샘플사이즈를 계산할때는 가장 보수적으로 불확실성이 높은 것으로 p를 계산한다.
위에서 식에서
표본오차 3% =


이므로 이것을 풀면  n=1111  약 111개의 샘플을 추출해야한다.
그렇다면 표본오차를 2% 내로 줄이려면 샘플을 얼마나 뽑아 하는가? 2%^2=1/n 이므로  n=2500개를 뽑아야 한다. 여기서 의문을 갖을 것이다.
왜 샘플오차는 3%에서 2%로 1/3 밖에 안줄었는데 샘플은 2배 이상을 뽑아야 하는가?
이것은 표본오차와 샘플수의 관계가 제곱근의 역수의 관계가 있기 때문이다.

그럼 여기서 설명을 마친다.

Posted by wishart
,