박스플롯 (Box Plot 또는 a box and whisker diagram)과 정규분포(normal distribution)의 관계는?

1. 박스플롯의 정의
박스플롯은 통계입문할때 재미있게 배우지만 별로 그때 이후로는 잘 이용을 하지 않는다. 실제 자세히 박스플롯에 대해서 알아두면 도움이 많이 된다.
먼저 박스플롯의 정의부터 알아보자.
아래 박스플롯의 정확한 명칭은 skeletal box-and-whisker plot 이다.



박스플롯은 위의 그래프에서 알 수 있듯이 각각의 정의를 알 수 있다. 여기서 Q1는 1사분위수, Q3는 3사 분위수이고 Median은 중간값이다. Q3에서 Q1까지의 거리를 IQR 혹은 Interqartile range라고 한다. 최대값에서 최소값의 차이를 Range라고 부른다.

2. 박스플롯을 그리는 법- 예제
그렇다면 박스플롯을 어떻게 그리는지 예제를 통해서 알아보자.
데이타가 아래와 같이 작은 순서대로 정렬이 되어 있다고 하자.

71     74     75     76     76     79     79     81     82     82     85

위의 데이타는 이미 작은값부터 정렬이 되어 있기 때문에 쉽게 원하는 최대값, 최소값, 1사분위수, 3사분위수, 중간값을 구할 수 있다. 그리고 참고로 최빈값이라고 있는데 이것은 가장 출현빈도가 높은 데이타 값을 말한다. 위에서 최빈값은 무엇일까? 76, 79, 82이가 각각 2회식 나왔으므로 최빈값을 이들 세개가 해당된다.



따라서 최종 그래프는 아래와 같이 그릴 수 있다.



3. 박스플롯의 3가지 형태 - SAS
여기까지가 바로 전형적인 박스플롯이다. 그런데 이것을 좀 변형한 박스플롯이 존재한다. 왜냐하면 직관적으로 어떤 데이타가 극단값 (outlier)일 가능성이 큰지 쉽게 알 수 있도록 표시할 표시할 필요가 있기 때문이다.

아래 박스플롯은 아마도 가장 흔하게 접하는 박스플롯중의 하나일 것이다. 이 박스플롯을 typical schematic box plot 이라고 한다.
1.5 IQR 이상인 Upper fence 위의 값을 보통 의심되는 이상값 혹은 극단값으로  생각을 한다. 보통 2.0 IQR 이상이면 * 로 표시한다. 위에서 설명했듯이 IQR = Q3 - Q1 으로 3사분위수에서 1사분위수를 뺀 사분위수 범위(Inter-Quartile Range : IQR)를 의미한다.

그렇다면 이런 박스플롯은 어떻게 그릴까? 궁금하지 않을 수가 없다. 이것을 그리는 법은 엑셀이나 여러 통계 소프트웨어에서 지원을 하지만 SAS가 문서로 정리된 것으로는 최고 수준이라서 SAS의 파일을 올려둔다.


http://www.okstate.edu/sas/v8/saspdf/stat/chap18.pdf

참고로 아래 SAS 프로그램은 날짜별 딜레이된 시간의 박스플롯을 하나의 그래프에 여러개를 그리는 프로그램이다. 여기서 옵션중 boxstyle =  이 바로 박스플롯의 형태를 결정하는 옵션이 된다. BOXSTYLE의 옵션은 SKELETAL, SCHEMATIC, SCHEMATICID 등을 줄 수 있다.


proc boxplot data=Times2;
plot delay * day /boxwidthscale = 1
                  boxstyle = schematic 
                  nohlabel
                  cframe = vligb 
                  cboxes = dagr 
                  cboxfill = ywh
                  idcolor = salmon 
                  vaxis = axis1;run;



4. 박스플롯과 정규분포와의 관계

박스플롯을 좀 더 분석을 해보자. 
만약 데이타가 정규분포를 따를때 표준편차와 박스플롯이 어떤 관계가 있는지를 관련지어 생각해보자. 이것은 박스플롯에 대한 이해를 도울 뿐 아니라 전체 데이타 구조에 대한 감각을 키우는데 아주 도움이 된다. 아래 그래프는 위키피디아에서 가져왔는데  데이타가 정규분포를 따를때 이보다 더 잘 박스플롯과 정규분포와의 관계를 설명한 것은 없는 것 같다.

위의 그래프를 활용한 현실적인 적용으로 쉽게 예를 들자면 우리가 가끔 6 시그마라는 말을 들을 것이다. 이말은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다. 즉 거의 0%로 불량을 없애겠다는 말이 된다.

이렇게 해서 박스플롯에 대한 모든 것을 알아보았다.
처음 통계학을 배울때 제대로 배워서 나중에 훌륭한 분석가가 되었으면 하는 바램에서 정리를 해보았다.

Posted by wishart
,

상관계수가 통계적으로 유의하다는 말을 그래프를 보고 말할 있을까?

베트남 전쟁 당시 미국으로 보낼 군인을 뽑는데 전쟁에 참여하기 싫은 군인들을 보내는 방법으로 공에 1에서 366이라는 숫자를 쓰고 이중에서 처음에 뽑아서 나온 숫자와 일치하는 생일을 갖는 군인이 1순위 차출대상자 2번째 뽑아서 나온 숫자와 일치하는 생일인 군인이 2차 차출대상자로 분류하였다. 그런데 이것은 확률적으로 공정하지 못하다고 군인들을 문제를 제기했는데 아래 그래프는 생일과 넘버와의 관계를 그린 그래프이다. 이것을 보고 여러분은 날짜와 복권의 draft number 어떤 경향을 갖는다고 말할 있을까?

아마도 대답은 상관관계는 무조건 0 것입니다 라고 대답을 것입니다.

그렇다면 우리가 알고 있는 피어슨 상관계수( Pearson’s Correlation) 구하면 얼마나 나올까요? 제가 직접 SAS 값을 구한 것은 -0.22604 얻었습니다.

이것이 의심스러워서 미모수 통계학의 순위를 이용한 상관계수 값을 구했더니 엮시  -0.2258 얻었습니다.

값은 낮은 것일까요? 아니면 높은 것일까요? 데이타  갯수가 366개로 적지 않으므로 SAS 정규근사 시켜서 가설검정을 했더니  p_value 0.0001보다 작은 것으로 나와 매우 유의하다는 결론을 얻었습니다.

이게 이해가 안된다고 있죠?

그래서 퍼뮤테이션테스트 ( 다른 말로는 잭나이브방법) 활용해서 366개의 순서를 바꿔서 상관계수를 전부 구한다음 이때 위에서 구한 상관계수-0.22604 분포에서 어디에 위치하는지를 구해보았습니다. 실제로 그래프는 366! 구하는 것이 시간이 많이 걸릴 같아 1,000개만 구했습니다. 그리고 상관계수-0.22604 1000개중에서 2번째로 작은값이 더군요. , p_vlaue 0.001 됩니다.

값은 유의하다고 있죠?

이렇게 봐도 이해가 안된다고 하실 분이 있을 같습니다.

그래서 월별 박스그래프(box plot) 그려보았습니다.

위의 그래프를 보듯 날짜가 커짐에 따라 중간값이 작아짐을 있습니다. 음의 상관관계가 있다는 것을 있죠.

우리가 그래프의 산점도만 보고 상관성을 판단할때 오류가 생길 있습니다.

이것은 그런 문제를 보여주는 아주 좋은 예라고 있습니다.

Posted by wishart
,