TV나 뉴스에서 자주 표본조사결과 발표에서 누구의 지지도는 얼마인데 신뢰구간 95%에서 오차범위 -3% ~ 3% 이라고 하는 경우를 많이 접했을 것이다. 이것이 정확히 어떤 의미일까? 한 번 생각해볼 만하다.

예를 들어 다음 대선에 대한 사전 표본조사결과  유시민 지지도가 53%이고 95% 신뢰구간에 표본오차범위는 -3% ~ +3%라고 한다면 이것의 의미는 유시민의 실제 지지도는 50% ~ 56%에 떨어질 가능성이 95%라고 말할 수 있다는 의미이다.

 표본오차를 통계적으로 정확히 설명하기 전에 먼저 유시민의 지지도가 53%일때 이때 95%의 신뢰구간을 구해보자.이때 95% 신뢰구간 (confidence Interval) 다음과 같이 계산된다. 2는 평균 0, 표준편자 1 인 표준정규분포 누적확률함수의 값이 97.5%가 되는 x값이다. 정확한 값은 1.96이나 계산의 편의를 위해서 실용적으로 필드에서는 보통 2로 계산을 한다. 아래는 이것을 쉽게 이해하기 위한 참고 그래프이다. 아래 x값이 1.96 일때 누적 확률이 0.975임을 볼 수 있다.




따라서 샘플크기가 30보다 크면 중심극한정리에 의해서  위의 도표에서 Mu는  샘플 지지도(proportion) ps로,표준편차 sigma는 [p*(1-p)/(n-1)]^0.5 로 대체 될  수 있다. 따라서 이때 95%  신뢰구간은 다음과 같이 표현된다.


그럼 지금 부터는  표본오차에 대해서 설명을 한다. 표본오차란 실제 유시민의 지지도 p와 표본에서 계산된 유시민의 지지도 p*의 차이의 절대값이다.

즉, 표본오차(margin of error)=|ps - p|

따라서 위의 신뢰구간에서 Ps를 빼면 표본오차를 계산할 수 있는데 결국은


이 부분이 신뢰구간 95%(alpha값이 5%라고 가정)에서 표본오차가 된다. 

바로 이것이 표준오차이다. 여기서 샘플크기 n은 분산의 unibiased estimator를 만들기 위해서 n-1로 계산하는 경우도 종종 있으니 n-1이 나오더라도 너무 긴장할 필요는 없다.

다음은 그렇다면 우리가 표본을 추출하기 전에 샘플사이즈를 얼마로 계산하면 표본오차를 3%이내로 할 수 있을까 하는 의문이 들 것이다. 즉 샘플크기를 결정하는 문제이다. 왜냐면 샘플 크기는 곧 표본조사에서 비용을 의미하기 때문에 아주 중요하다.

우리가 샘플사이즈를 결정하는 문제는 아래 그래프에서 보듯이 p=0.5 일때 불확실성이 가장 높아져 실제 분산이 가장 커진다. 직관적으로 누가 당선된 확률이 1/2 이라고 이야기 할때 가장 불확실성이 높은 것이라는 것을 알 수 있다.




따라서 샘플사이즈를 계산할때는 가장 보수적으로 불확실성이 높은 것으로 p를 계산한다.
위에서 식에서
표본오차 3% =


이므로 이것을 풀면  n=1111  약 111개의 샘플을 추출해야한다.
그렇다면 표본오차를 2% 내로 줄이려면 샘플을 얼마나 뽑아 하는가? 2%^2=1/n 이므로  n=2500개를 뽑아야 한다. 여기서 의문을 갖을 것이다.
왜 샘플오차는 3%에서 2%로 1/3 밖에 안줄었는데 샘플은 2배 이상을 뽑아야 하는가?
이것은 표본오차와 샘플수의 관계가 제곱근의 역수의 관계가 있기 때문이다.

그럼 여기서 설명을 마친다.

Posted by wishart
,

아마도 이것은 고등학교에서 풀었던 것 같은데 다시 처음에 아무런 지식없이 풀려고 하니 풀 수가 없었다는...답을 알고 나서는 이런 문제도 못푼다는 것이 창피하기도 하고 뭐 그런 문제였다.

문제는 다음과 같다. 형이 나에게 10만불을 빌려주면 월별 꼬박 꼬박 일정금액을 갚아서 10년후에는 모두 다 돈을 갚겠다고 하였다. 그렇다면 나는 도대체 형에게 얼마를 매월 받으면 될까?  연간 이자율(EAR 혹은 effective annual rate)은 8% 이다.
 
이것을 계산하기 위해서 매월 일정금액을 불입했을때 연간 이자율 8%가 되는 월별 복리이자율을 계산하여야 한다. 영어로 monthly compounding interest라고 한다. 아래 식은 월별 이자율이 다음과 같다고 하자.

그리고 년간 이자율을

이라고 하자. 그렇다면 다음의 식이 성립한다.
왜냐하면 원금에 월별 이자율이 붙어 계속 돈이 불어나기 때문이다. 그리고 이것은 전체 원금에 1에  년간 이자율과의 합과 같게 된다.

이 방정식을 풀면 rm 은 0.0064 가 된다.

그런다음 10만달러의 현가(Presnet Value)를 계산한다. 현가란 미래의  개념이 없다면 이것을 계산하는 것이 좀 힘들다.
아래 식은 현재의 가치 10만달러는 매월 얼마를 10년동안 얼마를 받으면 10만달러가 되는지에 대한 계산을 위한 식이다. 여기서 A는 Annuity라고 하는데  사실 여기서는 매월 얼마씩 받아야 하는지에 대한 금액이다. 즉 왜냐면 여기서 t를 120개월 수로 놓았기 때문이다. 만약 위의 문제에서 월별이 아니라 년간 얼마씩 받아아 하는지 물었다면 r=8%이고 A는 Annuity가 되었을 것이다.
이식은 우리가 잘 알고 있는 등비수열에서 나온 것이다.


즉 이것을 풀면 아래와 같은 식을 얻는다


따라서 나는 10만불을 지금 빌려주고 매월 형으로 부터 $1198.58 를 받으면 된다.

Posted by wishart
,

경영학 케이스스터디를 읽다가 표에 CAGR라는 것이 있었다. 도대체가 첨 들어보는 말인데 애덜은 캐거라고 자연스레 읽으면서 이것을 가지고 성장율을 계산하고 하는 것이다. 난 참 황당해서 이게 뭐냐고 물었는데 이것은 경영학에서 자주 사용하는 개념이라고 이야기 할 뿐 정확한 답변을 얻진 못했다.
그래서 난 이것을 찾아서 개념을 이해하려고 했는데 결국 이것은 통계학에서 기하평균을 의미하는 것이였다.
여기서  난 내가 통계학을 배웠지만 실제 어떻게 쓰이는지 모르고 살았구나 하는 느낌이 들었다.
그렇다면 기하평균이 무엇인지 알아보자.
먼저 예를 들어 설명하면 이해가 쉬울 것이다. 2와 8의 기하평균은 다음과 같이 구해진다. 

이것의 의미는 무엇인가? 결국 가로 2, 세로 8이 만들어낸 면적과 같은 정사각형의 한쪽 길이가 바로 기하평균이 된다. 다른 예로 4, 1, 1/32 의 기하평균을 구해보자. 이것은 다음과 같다.
즉 이것은 이 세가지 값이 만들어내는 부피와 같은 정사면체의 한쪽 면의 길이가 이들의 기하평균이 된다.
그렇다면 왜 이런 개념이 필요한 것일까?
가령 어떤 회사의 3년간 평균 성장율을 알고 싶다고 하자. 이 회사의 매출은 다음과 같다.
첫해 100억, 둘째해 200억, 세째해 250억 이라고 하자. 그렇다면 이 회사의 평균 성장율은 어떻게 구할 수 있을까? 이것은 간단히 {(200/100)*(300/200)}^0.5 = 3^0.5가 된다.

이것을 일반화 형태로 푼다면 현재 어떤 회사의 매출이 n년 동안 a0, a1, a2, a3,...,an 이라고 하자.
그렇다면 첫해 성장율은 a1/a0, 둘째해 성장율은 a2/a1,...,n년째 성장율은 an/an-1 로 나타낼 수 있다. 그리고 전체 평균성장율은 다음과 같이 표현될 수 있다.

이게 바로 기하 평균이다.

그럼 왜 이게 의미가 있는 것일까? 다음의 예를 보자

  기준해 1년차 2년차 3년차 4년차 5년차 수학평균 기하평균
매출 100 140 130 150 200 300    
성장율   1.40 0.93 1.15 1.33 1.50 1.26 0.60

기하평균은 5년동안 연간 60% 성장했으므로 100*60%*5년 곱하면 정확히 300이 나오지만 수학평균은 연평균 성장율을 제대로 말해주지 못한다. 그래서 나온 것이 기하평균이다. 경영학에서는 이것을 CAGR라고 부른다.
이상 기하평균의 소개를 마친다.

 



 

Posted by wishart
,