기초통계 정리 : 분산, 공분산, 상관계수, 적률생성함수 그리고 통계적으로 독립일때 계산하는 것을 정리하였다.
Variance, Covariance, Correlation, Moment generated function, 그리고 independence

통계학을 공부할때 가장 기본이 되는 것인데 이것들이 오래되면 헛갈리기도 하고 배울땐 쉽다고 생각했는데 요즘 슬라이드를 기본으로 이용하다 보니 초스피드 강의에 가끔 다시 통계학 책을 뒤적일때가 있다.
이럴때를 대비해서 정리를 해보았다.

통계학을 배우고 가물가물한 분들이나 아니면 지금 한참 배우고 있는 분들은 이것을 참고하면 쉽게 정리가 될 것이라 생각한다.
물론 이것은 통계학 전공자들과 경영학을 전공하는 분들에게도 도움이 될 것 이라 생각합니다.

Posted by wishart
,

상관계수가 통계적으로 유의하다는 말을 그래프를 보고 말할 있을까?

베트남 전쟁 당시 미국으로 보낼 군인을 뽑는데 전쟁에 참여하기 싫은 군인들을 보내는 방법으로 공에 1에서 366이라는 숫자를 쓰고 이중에서 처음에 뽑아서 나온 숫자와 일치하는 생일을 갖는 군인이 1순위 차출대상자 2번째 뽑아서 나온 숫자와 일치하는 생일인 군인이 2차 차출대상자로 분류하였다. 그런데 이것은 확률적으로 공정하지 못하다고 군인들을 문제를 제기했는데 아래 그래프는 생일과 넘버와의 관계를 그린 그래프이다. 이것을 보고 여러분은 날짜와 복권의 draft number 어떤 경향을 갖는다고 말할 있을까?

아마도 대답은 상관관계는 무조건 0 것입니다 라고 대답을 것입니다.

그렇다면 우리가 알고 있는 피어슨 상관계수( Pearson’s Correlation) 구하면 얼마나 나올까요? 제가 직접 SAS 값을 구한 것은 -0.22604 얻었습니다.

이것이 의심스러워서 미모수 통계학의 순위를 이용한 상관계수 값을 구했더니 엮시  -0.2258 얻었습니다.

값은 낮은 것일까요? 아니면 높은 것일까요? 데이타  갯수가 366개로 적지 않으므로 SAS 정규근사 시켜서 가설검정을 했더니  p_value 0.0001보다 작은 것으로 나와 매우 유의하다는 결론을 얻었습니다.

이게 이해가 안된다고 있죠?

그래서 퍼뮤테이션테스트 ( 다른 말로는 잭나이브방법) 활용해서 366개의 순서를 바꿔서 상관계수를 전부 구한다음 이때 위에서 구한 상관계수-0.22604 분포에서 어디에 위치하는지를 구해보았습니다. 실제로 그래프는 366! 구하는 것이 시간이 많이 걸릴 같아 1,000개만 구했습니다. 그리고 상관계수-0.22604 1000개중에서 2번째로 작은값이 더군요. , p_vlaue 0.001 됩니다.

값은 유의하다고 있죠?

이렇게 봐도 이해가 안된다고 하실 분이 있을 같습니다.

그래서 월별 박스그래프(box plot) 그려보았습니다.

위의 그래프를 보듯 날짜가 커짐에 따라 중간값이 작아짐을 있습니다. 음의 상관관계가 있다는 것을 있죠.

우리가 그래프의 산점도만 보고 상관성을 판단할때 오류가 생길 있습니다.

이것은 그런 문제를 보여주는 아주 좋은 예라고 있습니다.

Posted by wishart
,