TV나 뉴스에서 자주 표본조사결과 발표에서 누구의 지지도는 얼마인데 신뢰구간 95%에서 오차범위 -3% ~ 3% 이라고 하는 경우를 많이 접했을 것이다. 이것이 정확히 어떤 의미일까? 한 번 생각해볼 만하다.

예를 들어 다음 대선에 대한 사전 표본조사결과  유시민 지지도가 53%이고 95% 신뢰구간에 표본오차범위는 -3% ~ +3%라고 한다면 이것의 의미는 유시민의 실제 지지도는 50% ~ 56%에 떨어질 가능성이 95%라고 말할 수 있다는 의미이다.

 표본오차를 통계적으로 정확히 설명하기 전에 먼저 유시민의 지지도가 53%일때 이때 95%의 신뢰구간을 구해보자.이때 95% 신뢰구간 (confidence Interval) 다음과 같이 계산된다. 2는 평균 0, 표준편자 1 인 표준정규분포 누적확률함수의 값이 97.5%가 되는 x값이다. 정확한 값은 1.96이나 계산의 편의를 위해서 실용적으로 필드에서는 보통 2로 계산을 한다. 아래는 이것을 쉽게 이해하기 위한 참고 그래프이다. 아래 x값이 1.96 일때 누적 확률이 0.975임을 볼 수 있다.




따라서 샘플크기가 30보다 크면 중심극한정리에 의해서  위의 도표에서 Mu는  샘플 지지도(proportion) ps로,표준편차 sigma는 [p*(1-p)/(n-1)]^0.5 로 대체 될  수 있다. 따라서 이때 95%  신뢰구간은 다음과 같이 표현된다.


그럼 지금 부터는  표본오차에 대해서 설명을 한다. 표본오차란 실제 유시민의 지지도 p와 표본에서 계산된 유시민의 지지도 p*의 차이의 절대값이다.

즉, 표본오차(margin of error)=|ps - p|

따라서 위의 신뢰구간에서 Ps를 빼면 표본오차를 계산할 수 있는데 결국은


이 부분이 신뢰구간 95%(alpha값이 5%라고 가정)에서 표본오차가 된다. 

바로 이것이 표준오차이다. 여기서 샘플크기 n은 분산의 unibiased estimator를 만들기 위해서 n-1로 계산하는 경우도 종종 있으니 n-1이 나오더라도 너무 긴장할 필요는 없다.

다음은 그렇다면 우리가 표본을 추출하기 전에 샘플사이즈를 얼마로 계산하면 표본오차를 3%이내로 할 수 있을까 하는 의문이 들 것이다. 즉 샘플크기를 결정하는 문제이다. 왜냐면 샘플 크기는 곧 표본조사에서 비용을 의미하기 때문에 아주 중요하다.

우리가 샘플사이즈를 결정하는 문제는 아래 그래프에서 보듯이 p=0.5 일때 불확실성이 가장 높아져 실제 분산이 가장 커진다. 직관적으로 누가 당선된 확률이 1/2 이라고 이야기 할때 가장 불확실성이 높은 것이라는 것을 알 수 있다.




따라서 샘플사이즈를 계산할때는 가장 보수적으로 불확실성이 높은 것으로 p를 계산한다.
위에서 식에서
표본오차 3% =


이므로 이것을 풀면  n=1111  약 111개의 샘플을 추출해야한다.
그렇다면 표본오차를 2% 내로 줄이려면 샘플을 얼마나 뽑아 하는가? 2%^2=1/n 이므로  n=2500개를 뽑아야 한다. 여기서 의문을 갖을 것이다.
왜 샘플오차는 3%에서 2%로 1/3 밖에 안줄었는데 샘플은 2배 이상을 뽑아야 하는가?
이것은 표본오차와 샘플수의 관계가 제곱근의 역수의 관계가 있기 때문이다.

그럼 여기서 설명을 마친다.

Posted by wishart