박스플롯 (Box Plot 또는 a box and whisker diagram)과 정규분포(normal distribution)의 관계는?

1. 박스플롯의 정의
박스플롯은 통계입문할때 재미있게 배우지만 별로 그때 이후로는 잘 이용을 하지 않는다. 실제 자세히 박스플롯에 대해서 알아두면 도움이 많이 된다.
먼저 박스플롯의 정의부터 알아보자.
아래 박스플롯의 정확한 명칭은 skeletal box-and-whisker plot 이다.



박스플롯은 위의 그래프에서 알 수 있듯이 각각의 정의를 알 수 있다. 여기서 Q1는 1사분위수, Q3는 3사 분위수이고 Median은 중간값이다. Q3에서 Q1까지의 거리를 IQR 혹은 Interqartile range라고 한다. 최대값에서 최소값의 차이를 Range라고 부른다.

2. 박스플롯을 그리는 법- 예제
그렇다면 박스플롯을 어떻게 그리는지 예제를 통해서 알아보자.
데이타가 아래와 같이 작은 순서대로 정렬이 되어 있다고 하자.

71     74     75     76     76     79     79     81     82     82     85

위의 데이타는 이미 작은값부터 정렬이 되어 있기 때문에 쉽게 원하는 최대값, 최소값, 1사분위수, 3사분위수, 중간값을 구할 수 있다. 그리고 참고로 최빈값이라고 있는데 이것은 가장 출현빈도가 높은 데이타 값을 말한다. 위에서 최빈값은 무엇일까? 76, 79, 82이가 각각 2회식 나왔으므로 최빈값을 이들 세개가 해당된다.



따라서 최종 그래프는 아래와 같이 그릴 수 있다.



3. 박스플롯의 3가지 형태 - SAS
여기까지가 바로 전형적인 박스플롯이다. 그런데 이것을 좀 변형한 박스플롯이 존재한다. 왜냐하면 직관적으로 어떤 데이타가 극단값 (outlier)일 가능성이 큰지 쉽게 알 수 있도록 표시할 표시할 필요가 있기 때문이다.

아래 박스플롯은 아마도 가장 흔하게 접하는 박스플롯중의 하나일 것이다. 이 박스플롯을 typical schematic box plot 이라고 한다.
1.5 IQR 이상인 Upper fence 위의 값을 보통 의심되는 이상값 혹은 극단값으로  생각을 한다. 보통 2.0 IQR 이상이면 * 로 표시한다. 위에서 설명했듯이 IQR = Q3 - Q1 으로 3사분위수에서 1사분위수를 뺀 사분위수 범위(Inter-Quartile Range : IQR)를 의미한다.

그렇다면 이런 박스플롯은 어떻게 그릴까? 궁금하지 않을 수가 없다. 이것을 그리는 법은 엑셀이나 여러 통계 소프트웨어에서 지원을 하지만 SAS가 문서로 정리된 것으로는 최고 수준이라서 SAS의 파일을 올려둔다.


http://www.okstate.edu/sas/v8/saspdf/stat/chap18.pdf

참고로 아래 SAS 프로그램은 날짜별 딜레이된 시간의 박스플롯을 하나의 그래프에 여러개를 그리는 프로그램이다. 여기서 옵션중 boxstyle =  이 바로 박스플롯의 형태를 결정하는 옵션이 된다. BOXSTYLE의 옵션은 SKELETAL, SCHEMATIC, SCHEMATICID 등을 줄 수 있다.


proc boxplot data=Times2;
plot delay * day /boxwidthscale = 1
                  boxstyle = schematic 
                  nohlabel
                  cframe = vligb 
                  cboxes = dagr 
                  cboxfill = ywh
                  idcolor = salmon 
                  vaxis = axis1;run;



4. 박스플롯과 정규분포와의 관계

박스플롯을 좀 더 분석을 해보자. 
만약 데이타가 정규분포를 따를때 표준편차와 박스플롯이 어떤 관계가 있는지를 관련지어 생각해보자. 이것은 박스플롯에 대한 이해를 도울 뿐 아니라 전체 데이타 구조에 대한 감각을 키우는데 아주 도움이 된다. 아래 그래프는 위키피디아에서 가져왔는데  데이타가 정규분포를 따를때 이보다 더 잘 박스플롯과 정규분포와의 관계를 설명한 것은 없는 것 같다.

위의 그래프를 활용한 현실적인 적용으로 쉽게 예를 들자면 우리가 가끔 6 시그마라는 말을 들을 것이다. 이말은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다. 즉 거의 0%로 불량을 없애겠다는 말이 된다.

이렇게 해서 박스플롯에 대한 모든 것을 알아보았다.
처음 통계학을 배울때 제대로 배워서 나중에 훌륭한 분석가가 되었으면 하는 바램에서 정리를 해보았다.

Posted by wishart
,

Normal Distribution Calculator

Normal Distribution - Calculator
To Calculate Normal Distributions:
Mean (m) :    SD (σ) :

Below :
Above :
                 Between :  and   


Results:
Normal Distribution:

 
   
Posted by wishart
,