표본조사- 오차범위(margin of error 혹은 표본오차범위의 의미, 지지율의 신뢰구간과 샘플크기 결정문제

Data, Modeling, and Decisions 2011. 3. 28. 12:17

TV나 뉴스에서 자주 표본조사결과 발표에서 누구의 지지도는 얼마인데 신뢰구간 95%에서 오차범위 -3% ~ 3% 이라고 하는 경우를 많이 접했을 것이다. 이것이 정확히 어떤 의미일까? 한 번 생각해볼 만하다.

예를 들어 다음 대선에 대한 사전 표본조사결과 유시민 지지도가 53%이고 95% 신뢰구간에 표본오차범위는 -3% ~ +3%라고 한다면 이것의 의미는 유시민의 실제 지지도는 50% ~ 56%에 떨어질 가능성이 95%라고 말할 수 있다는 의미이다.

표본오차를 통계적으로 정확히 설명하기 전에 먼저 유시민의 지지도가 53%일때 이때 95%의 신뢰구간을 구해보자.이때 95% 신뢰구간 (confidence Interval) 다음과 같이 계산된다. 2는 평균 0, 표준편자 1 인 표준정규분포 누적확률함수의 값이 97.5%가 되는 x값이다. 정확한 값은 1.96이나 계산의 편의를 위해서 실용적으로 필드에서는 보통 2로 계산을 한다. 아래는 이것을 쉽게 이해하기 위한 참고 그래프이다. 아래 x값이 1.96 일때 누적 확률이 0.975임을 볼 수 있다.

따라서 샘플크기가 30보다 크면 중심극한정리에 의해서 위의 도표에서 Mu는 샘플 지지도(proportion) ps로,표준편차 sigma는 [p*(1-p)/(n-1)]^0.5 로 대체 될 수 있다. 따라서 이때 95% 신뢰구간은 다음과 같이 표현된다.

그럼 지금 부터는 표본오차에 대해서 설명을 한다. 표본오차란 실제 유시민의 지지도 p와 표본에서 계산된 유시민의 지지도 p*의 차이의 절대값이다.

즉, 표본오차(margin of error)=|ps - p|

따라서 위의 신뢰구간에서 Ps를 빼면 표본오차를 계산할 수 있는데 결국은

이 부분이 신뢰구간 95%(alpha값이 5%라고 가정)에서 표본오차가 된다.

바로 이것이 표준오차이다. 여기서 샘플크기 n은 분산의 unibiased estimator를 만들기 위해서 n-1로 계산하는 경우도 종종 있으니 n-1이 나오더라도 너무 긴장할 필요는 없다.

다음은 그렇다면 우리가 표본을 추출하기 전에 샘플사이즈를 얼마로 계산하면 표본오차를 3%이내로 할 수 있을까 하는 의문이 들 것이다. 즉 샘플크기를 결정하는 문제이다. 왜냐면 샘플 크기는 곧 표본조사에서 비용을 의미하기 때문에 아주 중요하다.

우리가 샘플사이즈를 결정하는 문제는 아래 그래프에서 보듯이 p=0.5 일때 불확실성이 가장 높아져 실제 분산이 가장 커진다. 직관적으로 누가 당선된 확률이 1/2 이라고 이야기 할때 가장 불확실성이 높은 것이라는 것을 알 수 있다.

따라서 샘플사이즈를 계산할때는 가장 보수적으로 불확실성이 높은 것으로 p를 계산한다.
위에서 식에서
표본오차 3% =

이므로 이것을 풀면 n=1111 약 111개의 샘플을 추출해야한다.
그렇다면 표본오차를 2% 내로 줄이려면 샘플을 얼마나 뽑아 하는가? 2%^2=1/n 이므로 n=2500개를 뽑아야 한다. 여기서 의문을 갖을 것이다.
왜 샘플오차는 3%에서 2%로 1/3 밖에 안줄었는데 샘플은 2배 이상을 뽑아야 하는가?
이것은 표본오차와 샘플수의 관계가 제곱근의 역수의 관계가 있기 때문이다.

그럼 여기서 설명을 마친다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

상관계수를 그래프를 보고 알 수 있을까? - 데이타 마이닝 (2)	2011.04.10
본페로니 검정법 (Bonfenoni Test)란 무엇인가? (0)	2011.04.07
맥니마 검정(McNemar test, paired test. 혹은대응표본검정 )- 범주형 자료분석 (0)	2011.03.26
통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용 (0)	2011.03.26
SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출 (0)	2011.03.25