박스플롯 (Box Plot 또는 a box and whisker diagram)과 정규분포(normal distribution)의 관계는?

1. 박스플롯의 정의
박스플롯은 통계입문할때 재미있게 배우지만 별로 그때 이후로는 잘 이용을 하지 않는다. 실제 자세히 박스플롯에 대해서 알아두면 도움이 많이 된다.
먼저 박스플롯의 정의부터 알아보자.
아래 박스플롯의 정확한 명칭은 skeletal box-and-whisker plot 이다.



박스플롯은 위의 그래프에서 알 수 있듯이 각각의 정의를 알 수 있다. 여기서 Q1는 1사분위수, Q3는 3사 분위수이고 Median은 중간값이다. Q3에서 Q1까지의 거리를 IQR 혹은 Interqartile range라고 한다. 최대값에서 최소값의 차이를 Range라고 부른다.

2. 박스플롯을 그리는 법- 예제
그렇다면 박스플롯을 어떻게 그리는지 예제를 통해서 알아보자.
데이타가 아래와 같이 작은 순서대로 정렬이 되어 있다고 하자.

71     74     75     76     76     79     79     81     82     82     85

위의 데이타는 이미 작은값부터 정렬이 되어 있기 때문에 쉽게 원하는 최대값, 최소값, 1사분위수, 3사분위수, 중간값을 구할 수 있다. 그리고 참고로 최빈값이라고 있는데 이것은 가장 출현빈도가 높은 데이타 값을 말한다. 위에서 최빈값은 무엇일까? 76, 79, 82이가 각각 2회식 나왔으므로 최빈값을 이들 세개가 해당된다.



따라서 최종 그래프는 아래와 같이 그릴 수 있다.



3. 박스플롯의 3가지 형태 - SAS
여기까지가 바로 전형적인 박스플롯이다. 그런데 이것을 좀 변형한 박스플롯이 존재한다. 왜냐하면 직관적으로 어떤 데이타가 극단값 (outlier)일 가능성이 큰지 쉽게 알 수 있도록 표시할 표시할 필요가 있기 때문이다.

아래 박스플롯은 아마도 가장 흔하게 접하는 박스플롯중의 하나일 것이다. 이 박스플롯을 typical schematic box plot 이라고 한다.
1.5 IQR 이상인 Upper fence 위의 값을 보통 의심되는 이상값 혹은 극단값으로  생각을 한다. 보통 2.0 IQR 이상이면 * 로 표시한다. 위에서 설명했듯이 IQR = Q3 - Q1 으로 3사분위수에서 1사분위수를 뺀 사분위수 범위(Inter-Quartile Range : IQR)를 의미한다.

그렇다면 이런 박스플롯은 어떻게 그릴까? 궁금하지 않을 수가 없다. 이것을 그리는 법은 엑셀이나 여러 통계 소프트웨어에서 지원을 하지만 SAS가 문서로 정리된 것으로는 최고 수준이라서 SAS의 파일을 올려둔다.


http://www.okstate.edu/sas/v8/saspdf/stat/chap18.pdf

참고로 아래 SAS 프로그램은 날짜별 딜레이된 시간의 박스플롯을 하나의 그래프에 여러개를 그리는 프로그램이다. 여기서 옵션중 boxstyle =  이 바로 박스플롯의 형태를 결정하는 옵션이 된다. BOXSTYLE의 옵션은 SKELETAL, SCHEMATIC, SCHEMATICID 등을 줄 수 있다.


proc boxplot data=Times2;
plot delay * day /boxwidthscale = 1
                  boxstyle = schematic 
                  nohlabel
                  cframe = vligb 
                  cboxes = dagr 
                  cboxfill = ywh
                  idcolor = salmon 
                  vaxis = axis1;run;



4. 박스플롯과 정규분포와의 관계

박스플롯을 좀 더 분석을 해보자. 
만약 데이타가 정규분포를 따를때 표준편차와 박스플롯이 어떤 관계가 있는지를 관련지어 생각해보자. 이것은 박스플롯에 대한 이해를 도울 뿐 아니라 전체 데이타 구조에 대한 감각을 키우는데 아주 도움이 된다. 아래 그래프는 위키피디아에서 가져왔는데  데이타가 정규분포를 따를때 이보다 더 잘 박스플롯과 정규분포와의 관계를 설명한 것은 없는 것 같다.

위의 그래프를 활용한 현실적인 적용으로 쉽게 예를 들자면 우리가 가끔 6 시그마라는 말을 들을 것이다. 이말은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다. 즉 거의 0%로 불량을 없애겠다는 말이 된다.

이렇게 해서 박스플롯에 대한 모든 것을 알아보았다.
처음 통계학을 배울때 제대로 배워서 나중에 훌륭한 분석가가 되었으면 하는 바램에서 정리를 해보았다.

Posted by wishart
,

요즘 많이 이야기 하는 혁신적인 기술로 회자되는 것으로 가장 유명한 것이 바로 증강현실(Augmented Reality)이다. 오래전에 개발되었으나 지금까지 활용성에서 별로 빚을 보지 못하다가 모바일 기술이 확산되면서 크게 인기를 얻고 있는 것이다.

증강현실(Augmented Reality)이란?
증강현실이란 간단히 말해서 내가 보고 있는 실제 뷰에 가상의 정보의 적절히 오버렙 되도록 하는 기술이다. 아주 간단하지만 실제 활용적인 측면에서는 혁신적으로 유저의 경험을 향상시킬 수 있기때문에 인터넷과 모바일의 급속한 성장으로 향후 상당한 인기를 누릴 것으로 기대가 된다.
가상현실과의 차이는 가상현실은 가상의 3차원 세계를 만들어서 거기에서 보이는 것을 우리가 느끼는것이지만 이것은 실제 현실에 가상의 정보를 합성시킨다는 것에서 다르다고 할 수 잇다.

기술요소
인식모듈 ( Recognition Module)
렌더링 모듈 (Rendering Module)
추적모듈 (Tracking Module)

비지니스 모델 (Business Model)
AR을 활용한 비지니스 모델을 storylabs.com의 창업자이고 현재 MUVEDesign.com의 디렉터인 Gary Hayes가 증강현실기술의 커머셜가치와 채택률에 따라 어떻게 비지니스 모델을 나눠볼 수 있는지 그림으로 아주 잘 정리를 해두었다. 자세한 것을 보려면 이미지를 클릭하면 됩니다.


그는 이 그림에서 가장 AR기술이 보편화되었을때 상업적 가치가 높은 것은 유용한 유틸리티 혹은 어플리케이션을 판매하는 비지니스 모델이라고 했는데 스마트 폰의 보급과 더불어 조만간 구글이나 애플이 AR브라우져를 폰에 디폴트 탑재하게 되면 충분히 가능성이 있는 스토리가 될 것 같다.

개인적인 생각은 구글이 모빌리지나 레이어가 하는 맵과 연동한 LBS 서비스를 자기들이 직접하면서 광고모델로 엄청난 돈을 벌어가지 않을까 하는 하지만 말이다.

AR 기술에 기반한 기업들

지오벡터(GeoVector)
1991년 샌프란 시스코, 토교 그리고 더블린에 설립이 되었고 이들은 증강현실기술에 기반한 게임을 개발하고 있다. 이들은 스마트폰의 포인팅 기술에 정통한 것으로 알려져 있다.

토탈 임머젼(Total Immersion)
1999년에 프랑스에 설립이 되었고 이미 이들은 1100만달러를 투자 받았고 마케팅과 광고, 엔터테인, 핼스케어, 상품설계, 3D, 교육 분야의 어플리케이션을 개발하고 있다.

Metaio
2003년 샌프란 시스코와 문니히에 설립이 되었고 Unieye 기술 플랫폼을 개발하였다.

모빌리지(Mobilizy)
모빌리지는 2009년 5월 Philipp Breuss Schneeweis 가 오스트리아에 설립이 되었고 이들이 가지고 있는 소프트웨어로는 Wikitude World Browser, LBS 기반의 서비스인 지오태깅서비스로서 Wikitude.me 쉽게 말하자면 UCC를 기반으로 하는 위치정보 태깅 포털서비스, 그리고 네비게이션 Wikitude Drive가 있다.
 이들은 웹에서 HTML언어가 표준이 되었듯이 자신들이 개발한 ARML이라는 KML기반한 언어를 AR브라우져의 표준으로 만들려고 노력중이다. 아래 화면은 이들이 올해 초 출시한 위키드라이브의 예이다.

 

레이아 (Layar)
네덜란드에 기반을 둔 레이아는 개발자들만이 모여있는 혁신적인 기업으로 모빌리지와 서비스의 라인업이 거의 유사하다. 레이아에 따르면 레이어 서비스 방문유저 분석 결과 지난해 220만명이 한 번이라도 사용을 했고 현재 70만명이 최근 한달동안 사용을 했으며 이중 25만명은 신규유저이고 45만명이 재방문 유저라고 보고하고 있다. 이것은 현재 AR 로컬서비스중에서 가장 많은 사용자를 확보있다고 볼 수 있다.

 

톤치돗 (Tonchidot)
Sekai 카메라라는 AR브라우져를  Gurmet Navigator inc, Loewe, NEXT, Kakaku.com, Tokyu-Hands 같은 큰 회사에 제공하므로써 자신의 영역을 넓혀가고 있다. Gurmet Navigator는 53000개의 레스토랑 정보를 제공하고 있다고 한다. 또한 이들은 소셜게임어플인 세카이 카페 AR, 세카이 유사(Sekai Yusha)를 가지고 있다. AR 기업중 가장 성공한 기업으로 분류된다.




그럼 도움이 되실길...
Posted by wishart
,
다음영화나 네이버영화 사이트의 평점은 믿어도 될까?

우리가 영화를 보고자 할때 살피는 것이 다음(Daum)이나 네이버(Naver)에서 검색을 하면 나오는 다음영화나 네이버 영화들의 평점이다. 그렇다면 이런 평점을 믿을만 한 것인가?


나의 아이디어는 만약 네이버와 다음의 영화의 평점이 비록 절대적인 점수에서는 차이가 있을 수 있겠지만 상관성은 매우 높을 것이라는 것이 가정이다. 또한 어떤 영화가 인기가 좋다면 평점의 갯수도 상대적으로 인기가 없는 영화보다 많을 것이다. 따라서 두 사이트의 평점갯수의 상관성이 높다면 영화평점은 두 사이트간에 일관성이 있다고 볼 수 있다.

사회과학에서는 실제 평점을 입소문(Word-of-Mouth)의 품질 (quality or valence)라고 하고  사이트의 영화 평점 갯수를 입소문의 크기 (Volume of Word-of-Mouth)라고 한다.
즉, 두 사이트의 입소문의 품질과 크기가 꽤 일관성이 있다면 우리는 영화 사이트의 평점을 신뢰할만하다고 할 수 있을 것이다.

그래서 실제 영화 3년(2008-2010)동안 개봉한 영화 647개를 조사해서 평점과 평점갯수에 대한 상관계수를 분석해 보았다. 결과는 꽤 일치한다는 것이다. 이런 영화평점은 믿을만하다고 할 수 있다. 물론 여기서 평점이 하나도 안달린 것은 제외를 하였다.

아래 표에서 네이버의 평점갯수가 다음에 무려 5.7배에 달한다. 다음에 평점을 좀 많이 달아야겠다. 다음평점의 평균과 네이버 평점평균은 거의 일치한다는 것을 알수 있다. 참 재미있는 결론이다.


변수  데이타갯수 평균 표준편차 최소값 최대값
네이버 평점 647     7.29       1.30 2.57 9.84
다음평점 647     7.31       1.36 1.5 9.7
네이버 평점갯수 647   2,428     4,092 21    40,021
다음 평점 갯수 647      424        693 3      8,530

그리고 각각의 상관계수는 다음과 같았다.

네이버 평점과 다음평점의 상관계수는 0.88
네이버 평점갯수와 다음평점갯수의 상관계수는 0.93

상당히 일치한다는 결론을 얻었다.
즉, 두 사이트의 평점은 신뢰할만하다고 할 수 있다.

다음과 네이버에서 평점이 가장 많이 달린 영화는 무엇일까?
위의 표에서 각각 최대값의 평점갯수를 갖는 것은....

다름아닌 "국가대표"였다.

재미있는 결과라서 올려보았다.
Posted by wishart
,