박스플롯 (Box Plot 또는 a box and whisker diagram)과 정규분포(normal distribution)의 관계는?

1. 박스플롯의 정의
박스플롯은 통계입문할때 재미있게 배우지만 별로 그때 이후로는 잘 이용을 하지 않는다. 실제 자세히 박스플롯에 대해서 알아두면 도움이 많이 된다.
먼저 박스플롯의 정의부터 알아보자.
아래 박스플롯의 정확한 명칭은 skeletal box-and-whisker plot 이다.



박스플롯은 위의 그래프에서 알 수 있듯이 각각의 정의를 알 수 있다. 여기서 Q1는 1사분위수, Q3는 3사 분위수이고 Median은 중간값이다. Q3에서 Q1까지의 거리를 IQR 혹은 Interqartile range라고 한다. 최대값에서 최소값의 차이를 Range라고 부른다.

2. 박스플롯을 그리는 법- 예제
그렇다면 박스플롯을 어떻게 그리는지 예제를 통해서 알아보자.
데이타가 아래와 같이 작은 순서대로 정렬이 되어 있다고 하자.

71     74     75     76     76     79     79     81     82     82     85

위의 데이타는 이미 작은값부터 정렬이 되어 있기 때문에 쉽게 원하는 최대값, 최소값, 1사분위수, 3사분위수, 중간값을 구할 수 있다. 그리고 참고로 최빈값이라고 있는데 이것은 가장 출현빈도가 높은 데이타 값을 말한다. 위에서 최빈값은 무엇일까? 76, 79, 82이가 각각 2회식 나왔으므로 최빈값을 이들 세개가 해당된다.



따라서 최종 그래프는 아래와 같이 그릴 수 있다.



3. 박스플롯의 3가지 형태 - SAS
여기까지가 바로 전형적인 박스플롯이다. 그런데 이것을 좀 변형한 박스플롯이 존재한다. 왜냐하면 직관적으로 어떤 데이타가 극단값 (outlier)일 가능성이 큰지 쉽게 알 수 있도록 표시할 표시할 필요가 있기 때문이다.

아래 박스플롯은 아마도 가장 흔하게 접하는 박스플롯중의 하나일 것이다. 이 박스플롯을 typical schematic box plot 이라고 한다.
1.5 IQR 이상인 Upper fence 위의 값을 보통 의심되는 이상값 혹은 극단값으로  생각을 한다. 보통 2.0 IQR 이상이면 * 로 표시한다. 위에서 설명했듯이 IQR = Q3 - Q1 으로 3사분위수에서 1사분위수를 뺀 사분위수 범위(Inter-Quartile Range : IQR)를 의미한다.

그렇다면 이런 박스플롯은 어떻게 그릴까? 궁금하지 않을 수가 없다. 이것을 그리는 법은 엑셀이나 여러 통계 소프트웨어에서 지원을 하지만 SAS가 문서로 정리된 것으로는 최고 수준이라서 SAS의 파일을 올려둔다.


http://www.okstate.edu/sas/v8/saspdf/stat/chap18.pdf

참고로 아래 SAS 프로그램은 날짜별 딜레이된 시간의 박스플롯을 하나의 그래프에 여러개를 그리는 프로그램이다. 여기서 옵션중 boxstyle =  이 바로 박스플롯의 형태를 결정하는 옵션이 된다. BOXSTYLE의 옵션은 SKELETAL, SCHEMATIC, SCHEMATICID 등을 줄 수 있다.


proc boxplot data=Times2;
plot delay * day /boxwidthscale = 1
                  boxstyle = schematic 
                  nohlabel
                  cframe = vligb 
                  cboxes = dagr 
                  cboxfill = ywh
                  idcolor = salmon 
                  vaxis = axis1;run;



4. 박스플롯과 정규분포와의 관계

박스플롯을 좀 더 분석을 해보자. 
만약 데이타가 정규분포를 따를때 표준편차와 박스플롯이 어떤 관계가 있는지를 관련지어 생각해보자. 이것은 박스플롯에 대한 이해를 도울 뿐 아니라 전체 데이타 구조에 대한 감각을 키우는데 아주 도움이 된다. 아래 그래프는 위키피디아에서 가져왔는데  데이타가 정규분포를 따를때 이보다 더 잘 박스플롯과 정규분포와의 관계를 설명한 것은 없는 것 같다.

위의 그래프를 활용한 현실적인 적용으로 쉽게 예를 들자면 우리가 가끔 6 시그마라는 말을 들을 것이다. 이말은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다. 즉 거의 0%로 불량을 없애겠다는 말이 된다.

이렇게 해서 박스플롯에 대한 모든 것을 알아보았다.
처음 통계학을 배울때 제대로 배워서 나중에 훌륭한 분석가가 되었으면 하는 바램에서 정리를 해보았다.

Posted by wishart
,


기초통계 정리 : 분산, 공분산, 상관계수, 적률생성함수 그리고 통계적으로 독립일때 계산하는 것을 정리하였다.
Variance, Covariance, Correlation, Moment generated function, 그리고 independence

통계학을 공부할때 가장 기본이 되는 것인데 이것들이 오래되면 헛갈리기도 하고 배울땐 쉽다고 생각했는데 요즘 슬라이드를 기본으로 이용하다 보니 초스피드 강의에 가끔 다시 통계학 책을 뒤적일때가 있다.
이럴때를 대비해서 정리를 해보았다.

통계학을 배우고 가물가물한 분들이나 아니면 지금 한참 배우고 있는 분들은 이것을 참고하면 쉽게 정리가 될 것이라 생각한다.
물론 이것은 통계학 전공자들과 경영학을 전공하는 분들에게도 도움이 될 것 이라 생각합니다.

Posted by wishart
,

Normal Distribution Calculator

Normal Distribution - Calculator
To Calculate Normal Distributions:
Mean (m) :    SD (σ) :

Below :
Above :
                 Between :  and   


Results:
Normal Distribution:

 
   
Posted by wishart
,

설문방법은 대답하기 곤란한 설문을 하는 경우 보다 정확한 답을 얻기 위해서 개발된 방법으로 처음에Warner (1965) 의해서 개발이 되었다. 아마 이것을 접하는 분은 통계의 위대함을 새삼 깨닫게 되는 즐거움을 얻게 같다.  방법은 가령 다음과 같은 설문을 하고자 아주 유용하다.

1.      당신은 마약을 해본 적이 있습니까?

2.      당신은 혼전에 유산 경험이 있습니까?

3.      당신은 가게에서 물건을 훔친 적이 있습니까?

4.      당신은 당신 부인 몰래 다른 여자와 6개월 내에 자본 적이 있습니까?

이런 질문을 받는 사람들이 정확한 답변을 하지 않을 것이라는 것은 쉽게 예상할 있다.

문제를 해결하는데 2가지 방법이 있다.

방법 1 : Warner(1965)

Warner (1965) 2가지 질문: (1) 나는 마약을 해본적이 있다(Qs) (2) 나는 마약을 해본적인 없다(Qc). 이런 질문지를 앞에 둔다. 그리고 주사위를 던져서 1, 2, 3, 4 가 나오면 (1) 질문에 대답을 하고 5, 6이 나오면 (2)번 질문에 답을 한다. 이때 설문조사자는 응답자가 어떤 질문에 어떻게 대답했는지 알 수 없고 단지, Yes 또는 No 의 전체 횟수와 주사위가 전체 분포가 어떻게 나왔는지만을 기록한다. , (1) (2) 번 질문이 전체 몇 번 나왔는지. 즉 개개인이 어떤 질문에 대답했는지 알수 없다. 그렇다면 이때 마약을 해본 경험이 있는 사람의 비율을 어떻게 알 수 있을까?

즉 정리하면 이 설문 방법으로 알 수 있는 것은 다음과 같다. 100번의 시행이 있었다면 우리는 주사위가 4/6 가 나올 확률이 66.6%라는것을 알기 때문에 (1)에 대한 응답이 전체에 66.6번이 나오고 (2)에 대한 답이 33 번이라는 것을 알 수 있다. 아래 표에서는 Yes라고 답한 것이 100중 20이라고 가정하였다.

 

질문\대답 Yes No Total
(1) 나는 마약을 해본적이 있다 q  67 (=p) 
(2) 나는 마약을 해본적인 없다 1-q 33(=1-p)
Total 20(=# yes) 80 100

이런 정보를 기초로 해서 우리는 조건부확률을 활용해서 원래 추정하려고 하는 마약해본 경험이 있는지를 추정한다.

(1) 나는 마약을 해본적이 있다(Qs)에 대해서 라고 대답한 확률을 q라고 하면 (2) 나는 마약을 해본적인 없다(Qc)에 대한 질문에 라고 대답할 확률은 1-q이다. 그리고 p (1) 번 질문에 대답할 확률이라고 하자. , 위의 예에서는 주사위가 1, 2, 3, 4 가 나올 확률 66.6%가 된다.

그렇다면 이때 전체 마약해본 경험이 있어요라고 대답할 확률은 어떻게 될까? 우리가 흔히 고등학교때부터 배운 베이즈 정리로 알려진 조건부 확률을 이용하면 간단히 해결이 된다.

P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*q+(1-p)*(1-q)

따라서, p=[P(yes) – (1-q)] / [2q-1]

p의 추정치는 X(=sum of xi)가 예라고 대답한 전체 사람수라고 하고 n이 전체 샘플수라고 하면 다음과 같다.

          Estimates p = [ X/n – (1-q) ] / (2q-1)

그렇다면 여기서 q=1, q=1/2, 또는q=0 이라면 어떤 일이 생길까?

q=1 이라는 의미는 질문지가 모두 (1)이라는 의미이고 q=0이라는 의미는 질문지가 모두 2이고 q=1/2라는 것은 50 50이라는 의미가 된다.

그런데 여기서 추정치 p의 분산을 계산하면 다음과 같다.

Warner 설문조사에서

Variance V(estimation for p) = p*(1-p)/n + q*(1-q)/[n*(2q-1)^2]

 

방법 2 : 관련없는 질문 (Innoccuous Question method)

Warner(1965) 질문이 완전히 서로 Exclusively 질문을 던지지만 이것은 두번째 질문을 다음과 같이 전혀 원래 질문의 의도와 관련이 없는 질문을 던진다. 그렇지만 우리가 충분히 확률적으로 예라고 대답할 확률을 있도록 설계를 한다.
다음과 같은 두 질문지가 있다.

(1) 나는 마약을 해본적이 있다(Qs)

(2) 동전을 던져라. 앞면인가? 예 또는 아니오

따라서

질문\대답 Yes No Total
(1) 나는 마약을 해본적이 있다 r                 67(=p) 
(2) 던진 동전이 앞면이다. alpha 33(=1-p)
Total 20(=# yes) 80 100

동전의 앞면이 나올 확률이기 때문에 이미 확률값을 알고 있는 r= P(yes given question 2) 이라고 하면 다음과 같은 식을 얻을 수 있다.
여기서 p는 (1)"나는 마약을 해본적이 있다(Qs)"번에 대해서 답변을 할 확률이고 q는 Waner의 설계처럼 (1)질문에 예스라고 대답할 확률이다. 여기서 우리는 실제 이 값은 알 수 없다. 또한 alpha는 (2)번 질문에 대해서 'Yes'라고 대답할 확률이다. 동전을 던졌으니 여기서는 1/2 이 될 것이다.
그렇다면 확률값은 다음과 같이 계산될 수 있다.

P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*r+(1-p)*alpha

따라서, p=[P(yes) – (1-r)] / [2r-1]

이때 추정치 p의 분산은

Var(estimator for p) = p(1-p)/n + [(1-q)^2 *r*(1-r)+r*(1-p)]/n*q^2 이 된다.

좀 복잡하지만 알고 나면 간단한 문제이다.
아주 똑똑한 설문 디자인이 아닐 수 없다. 이에 대한 자세한 정보는 위키에도 정리가 잘 되어 있다.

여기서 p가 커지면 분산은 적어지고 alpha가 클때 분산이 작아지는 경향이 있다.
그렇지만 이것이 진리는 아니라는 것을 기억하자.

Posted by wishart
,