다음영화나 네이버영화 사이트의 평점은 믿어도 될까?

우리가 영화를 보고자 할때 살피는 것이 다음(Daum)이나 네이버(Naver)에서 검색을 하면 나오는 다음영화나 네이버 영화들의 평점이다. 그렇다면 이런 평점을 믿을만 한 것인가?


나의 아이디어는 만약 네이버와 다음의 영화의 평점이 비록 절대적인 점수에서는 차이가 있을 수 있겠지만 상관성은 매우 높을 것이라는 것이 가정이다. 또한 어떤 영화가 인기가 좋다면 평점의 갯수도 상대적으로 인기가 없는 영화보다 많을 것이다. 따라서 두 사이트의 평점갯수의 상관성이 높다면 영화평점은 두 사이트간에 일관성이 있다고 볼 수 있다.

사회과학에서는 실제 평점을 입소문(Word-of-Mouth)의 품질 (quality or valence)라고 하고  사이트의 영화 평점 갯수를 입소문의 크기 (Volume of Word-of-Mouth)라고 한다.
즉, 두 사이트의 입소문의 품질과 크기가 꽤 일관성이 있다면 우리는 영화 사이트의 평점을 신뢰할만하다고 할 수 있을 것이다.

그래서 실제 영화 3년(2008-2010)동안 개봉한 영화 647개를 조사해서 평점과 평점갯수에 대한 상관계수를 분석해 보았다. 결과는 꽤 일치한다는 것이다. 이런 영화평점은 믿을만하다고 할 수 있다. 물론 여기서 평점이 하나도 안달린 것은 제외를 하였다.

아래 표에서 네이버의 평점갯수가 다음에 무려 5.7배에 달한다. 다음에 평점을 좀 많이 달아야겠다. 다음평점의 평균과 네이버 평점평균은 거의 일치한다는 것을 알수 있다. 참 재미있는 결론이다.


변수  데이타갯수 평균 표준편차 최소값 최대값
네이버 평점 647     7.29       1.30 2.57 9.84
다음평점 647     7.31       1.36 1.5 9.7
네이버 평점갯수 647   2,428     4,092 21    40,021
다음 평점 갯수 647      424        693 3      8,530

그리고 각각의 상관계수는 다음과 같았다.

네이버 평점과 다음평점의 상관계수는 0.88
네이버 평점갯수와 다음평점갯수의 상관계수는 0.93

상당히 일치한다는 결론을 얻었다.
즉, 두 사이트의 평점은 신뢰할만하다고 할 수 있다.

다음과 네이버에서 평점이 가장 많이 달린 영화는 무엇일까?
위의 표에서 각각 최대값의 평점갯수를 갖는 것은....

다름아닌 "국가대표"였다.

재미있는 결과라서 올려보았다.
Posted by wishart
,


기초통계 정리 : 분산, 공분산, 상관계수, 적률생성함수 그리고 통계적으로 독립일때 계산하는 것을 정리하였다.
Variance, Covariance, Correlation, Moment generated function, 그리고 independence

통계학을 공부할때 가장 기본이 되는 것인데 이것들이 오래되면 헛갈리기도 하고 배울땐 쉽다고 생각했는데 요즘 슬라이드를 기본으로 이용하다 보니 초스피드 강의에 가끔 다시 통계학 책을 뒤적일때가 있다.
이럴때를 대비해서 정리를 해보았다.

통계학을 배우고 가물가물한 분들이나 아니면 지금 한참 배우고 있는 분들은 이것을 참고하면 쉽게 정리가 될 것이라 생각한다.
물론 이것은 통계학 전공자들과 경영학을 전공하는 분들에게도 도움이 될 것 이라 생각합니다.

Posted by wishart
,