Bertrand competition은 비지니스에서 price war를 의미한다.

버트란드 트랩이란 두회사가 똑같은 상품을 생산하고 이들의 생산한계비용(marginal cost)이 같으면서 각 회사는 자기들 상품가격을 선택할 수 있다 는 가정에서 출발하여 가격전쟁을 하는 경우를 말한다. 이 게임에서 두회사는 동시에 상품가격을 결정하고 두회사중 상품가격을 더 낮게 책정하는 회사가 전체 마켓을 장악하게 되는 게임이다. 만약 두 회사의 상품가격이 같다면 두 회사는 시장을 50대 50으로 양분할 것이다. 시장의 수요는 가격에에 의존하는 것을 가정한다. 
이런 상황에서는 서로 가격을 낮추면서 경쟁을 하다가 결국은 한계생산비용에 도달하게 된다. 만약 이때 이들이 이미 Sunk Cost가 있다면 상품을 팔면 팔수록 오히려 손해가 되는 게임이다. 따라서 이런 가격전쟁은 피할 수 있으면 피하는 것이 좋다. 이것을 바로 버트란드 드랩이라고 한다.


경제학의 게임이론을 공부하다가 나오는 재미있는 죄수의 딜레마(Prisoner's Dillema)라는 것이 있다. 이것은 흔히 가격전쟁에서 나올 수 있는 것으로 내용이 아주 재미있다.
아래와 같이 두 죄수 A, B가 있다. 이들은 서로 비밀을 알고 있는데 무조건 둘다 비밀을 이야기하면 5년씩 감형을 받아 비밀을 말하지 않을때 2년을 감형받는 것보다 좋은 조건이다. 그런데 어느 한쪽만 비밀을 경찰에게 말하면 말한 쪽은 1년밖에 감형을 받지 못하지만 말하지 않은 쪽은 10년을 감형받는다. 이 죄수들은 서로 독방에서 취조를 받고 있다고 하자. 당신이라면 어떻게 하겠는가? 
아래 다이어그램은 이것을 표현한 것이다.

이것이 바로 죄수의 딜레마이다.

다음의 다이어그램은 가격전쟁의 예를 잘 설명해준다. 어느한쪽이 가격을 낮추면 비록 이익에 상당한 타격이 있을지라도 다른 한쪽도 낮출 수 밖에 없는 상황을 보여준다. 아래 예는 델타항공과 US 에어라인의 가격전쟁의 예를 나타낸 것이다.
델타(Delta)항공과 US에어라인이 티켓가격을 높게 유지하고 있다면 둘단 50씩 이익을 낼 수 있지만 둘다 티켓가격을 낮추면 이익이 0가 된다. 그런데 문제는 티켓가격을 어느 한쪽만 낮추고 다른 한쪽이 그대로 높은 티켓가격을 유지하면 낮춘 쪽은 100을 벌 수 있어 높은 가격을 유지하고 있을때 보다 2배의 이익을 낼 수 있지만 높은 가격을 유지한 쪽은 손실 50이 발생한다. 따라서 결국은 다른 한쪽도 가격을 낮출 수 밖에 없고 그렇게 되면 이익은 두 회사 0가 되어버린다. 

실데이타는 아니지만 이해하는데 도움이 될 것이다.
게임이론은 쉬우면서 재미있고 유용한 이론이다. 존내쉬란 뷰티플 마인드의 주인공이 만든 이론이다. 실제 그 친구 강연을 들은 사람이 말하길 그는 게임이론으로 노벨경제학상을 받았지만 게임이론은 수학의 단편적지식에 불과하다고 말한다.
그 자신에게는 그렇게 큰 성과는 아니라고 생각하는 것 같다고 한다.

Posted by wishart
,

 라플라스 succession rule- 베이지안 통계 (Bayesian Statistics)

 

천재 수학자 라플라스(Laplace)는

What’s the probability that the sun will rise tomorrow, given that it has been doing so every morning on earth for 4.5 billion years?.

즉, 지구에서 45억년 동안 아침에 해가 떴는데 그렇다면 내일도 해가 뜰 확률은 얼마인가?


에 대해서 답을 제시하려고 하였다. 이 문제는 현대 수학자 및 통계학자 사이에서도 뜨거운 이슈가 되기도 하였다.

여러분들은 쉽게 답을 찾을 수 있을까요? 라플라스의 내일 아침에도 해뜰 확률은동전을 n 번 던졌는데 전부 n번이 앞면이 나왔다. 그렇다면 n+1번째 동전이 앞면이 나올 확률이 얼마인지를 계산하는 문제와 같다고 생각을 하였다.

누구가는 이것을 계산할때 한마디로 간단하죠. 1입니다라고 답할겁니다. 왜냐면 지금까지 전부 n번이 나왔으니깐요.

그럼 지금까지 n번을 던져서 s번이 앞면이 나왔다면 그 확률을 단순히 s/n이라고 할 것이다. 따라서 우리는 이것을 일반화된 수식으로 쓴다면

이라고 할 수 있을 것이다.

그렇다면 여기서 s=n이거나 n=0이라면 이 수식은 성립할까? n=0 이라는 말은 동전을 한 번도 안던졌는데 지금 동전을 던지면 앞면이 나올 확률이 얼마이냐는 질문과 같다. 이렇게 물어보면 우리는 쉽게 동전에 공정하게 잘 만들어졌다면 당연히 1/2이라고 대답할 것이다. 그렇다면 위의 식은 틀린 답이 된다. 또한 s=n이라고 하면 동전을 n번을 던져서 앞면이 n번이 나왔는데 다음에 동전을 던졌을때 앞면이 나올 확률은 얼마인지를 계산하는 문제와 같다. 위의 식에 의하면 1이 된다. 따라서 이것도 설명이 충분히 되지 못한다. 

라플라스는 이 확률계산을 미리 두번을 던진 것처럼 하고 그중에 한번이 성공할 확률값으로 계산을 하였다. 위의 예에서는 (s+1)/(n+2) 이된다.  왜냐하면 지금까지 성공한 횟수에서 미리 2번을 던진 것처럼하고 그 중에서 1번이 성공할 확률을 계산하기 때문이다. 우리는 다음에 나올 동전이 앞면인지 뒷면인지 알 수 없기 때문에 결국 1/2의 확률값을 부여한 것이기 때문이다.

이것을 수식으로 다음과 같이 증명을 할 수 있다. 라플라스는 이것을 베이즈 정리를 사용해서 증명을 하였는데 이게 베이지안통계의 시조라 할 수 있을 것 같다.

어떤 사건이 연속해서 n번이 발생하고 다음에 사건이 발생할 확률은 얼마일까? 다시 처음 질문으로 돌아가면 지구가 45억년전에 생성되었고 매일 해가 떴을때 내일도 해가 뜰 확률은 얼마일까?  라플라스는 해가 뜰 확률이 무엇인지 알 수 없으므로 이때  해뜰 확률 자체는 일량분포(uniform distribution) 따른다고 가정하였다. 일량분포란 0에서 1까지 랜덤하게 확률이 발생할 수 있다는 것을 의미한다. 통계의 전문용어로 베이지안통계에서 이것을 사전확률분포(Prior distribution)하고 한다. 

베이지안들은 이렇게 어떤 모수에 대한 분포만을 가정함으로써  훌륭한 추정로직을 개발하였다. 아래 식을 보자. 아래식은 동전을 n번 던졌을때 s번이 앞면이 나올 확률을 계산하는 식이다. 물론 정확히는 (n,s)가 앞에 있어야 하지만 결국 나중에 날아가게 될 것이라서 이렇게만 두자. 여기서 우리는 해뜰 확률 p값이 어떻게 변할지 모른다. 그래서 이것은 확률이 0에서 1까지 랜덤하게 변하는 일량분포를 가정하는 것이다.

 

이렇게 두면 베이즈 정리를 활용해서 사후확률분포(posterior distribution) 구할 있다. p를 결합확률분포식에서 좀 헛갈릴 수 있으니 theta로 쓰자.


문제에서는 n번 연속 동전을 던져서 x번이 앞면이 나왔을때 그 다음에 던진 동전이 앞면이 나올 p의 확률분포함수를 구할 있고 해뜰 확률 p 기대값이 결국은 내일도 해가 뜰 확률값이 된다.

 




따라서 이 사후확률분포를 갖는 theta 의 기대값이  E(theta)=(x+1)/(n+2) 된다. 위의 식은 결국 베타분포이므로 베타분포의 평균값은 (x+1)/(n+2)이기 때문에 여기서 x가 n이 되기 때문이다.

즉, n번의 실행에서 n번이 동전의 앞면이 나오고 다음에 던진 동전이 또 앞면일 확률은 (n+1)/(n+2) 이 된다.


Posted by wishart
,

Normal Distribution Calculator

Normal Distribution - Calculator
To Calculate Normal Distributions:
Mean (m) :    SD (σ) :

Below :
Above :
                 Between :  and   


Results:
Normal Distribution:

 
   
Posted by wishart
,

서로 다른 모집단의 평균 비교 검정력(1-beta), 신뢰구간이 주어졌을때 표본크기(샘플사이즈) 결정

시간이 지나면서 아주 헛갈리는 통계학의 주제중의 하나가 서로 다른 모집단에서 표본추출을 해서 평균값을 비교하는 경우이다.

예를 들면 두집단의 평균값  차이의95% 신뢰구간의 상한값과 하한값의 차이(width )값이  2 이하로 떨어지게 하고 싶을때 얼마나 많은 샘플(표본)  뽑으면  될까?  또는 가설검정의 검정력을 50% 두고 두집단의 평균값 차이가 2 되게 만들고 싶을때 얼마나 많은 표본을 수집해야 하는가?

이런 예는 현실에서도 상당히 많이 적용될 있는 것들인데 시간이 지나서 계산하려 하면 쉽게 이해가 되질 않는 것이 사실이다. 그래서 간단한 예와 함께 정리를 해보았다.

모집단에서 독립적으로 각각 n개의 샘플을 추출한다고 하자. 이들 각각의 분포의 표준편차는 10으로 알려져 있다. 이때 다음에 대해서 생각을 해보자.

(1)    모집의 평균차이 95% 신뢰구간의 상한값과 하한값의 차이(width) 2 갖게 만들고 싶을때 우리는 얼마나 많은 샘플을 추출해야 하는가?

<정답>

 

 

(2)  '  H0: 두집단의 평균차는 없다  vs H1: X모집단이 평균이 Y 모집단의 평균보다 크다' 에 대한 가설검정에서 평균차이는 2이고 type1 error 10%라고 할때  검정력이 50% 되기 위해서는 얼마나 많은 샘플을 뽑아야 하는가?

<정답>


그럼 도움이 되길...
Posted by wishart
,

Z Corporation:

Rapid Prototyping and 3D Printing

Marina Hatsopoulos, Former CEO

MIT 2 학생에 의해서 설립된 Z-Corporation 3D 프린팅 비지니스의 틈새시장을 일찌감치 깨닫고 이것을 개발착수에 들어가 1년만에  괜찮은 알파버전을 만들게 되었다.

그런데 이미 그들이 하려고 하는 것을 기존의 회사들이 이미 개발을 하였고 깔끔하고 사용하기 쉬웠다. 그것을 알게된 순간 그들은 좌절했지만 얼마지 않아 그들은 그들 제품이 다른 회사의 제품에 비하여 10 이상이 빠르다는 것을 알게되었고 기회를 발견하게 되었다.

그들은 지금  막강한 HP, 3M, 3D Systems, Stratasys 혹은 DTM같은 경쟁사에  자신들의  기술을 팔아야 할지 아니면 원래 계획했던 대로  자신들이 목표로한 시장을 직접 공략할 것인지 고민하고 있다. 어느것도 쉽지 않은 결정이기 때문에 이들은 고민하는 상황이다. 자세한 현재의 상황은 파일을 열어서 확인하라.

이들은 후자의 결정을 하게 되었고 그때 CEO였던 마리나에게 그때 상황을 어떻게 돌파해 나갔는지 스피치를 들을 있는 기회를 갖게 되었다. 그녀로 부터 얻을 교훈들을 적어둔다.

결론부터 이야길 하자면 그녀는 직접 회사를  운영하기로 결정을 했고 아주 훌륭한 성과를 내게 되었다. 

$11 MM 엔젤과 기업투자로 유치에 성공함과 동시에 3D프린팅 시장에서 넘버2로서 지배적인 사업자가 되었으며 $30백만 달러의 매출을 올렸다.

그녀의  스피치로 부터 얼마나 그당시 아래 정보를 수백차례 검토하고 검토했을까 하는 느낌이 정도로 엄청난 고민을 했다는 것을 피부로 느낄 있었다.

Key Lesson

1.  경쟁기업에 대한 어떤 정보를 제일 먼저 알아야 하는가?

-          상품출시가격 (launching price)

-          상품생산의 비용구조(cost structure)

-          판매채널(distribution channel)

2.  경쟁기업이 내가 있는 마켓에 들어올 것이라는 위험을 인지하라.

3.  판매채널은 매우 중요하다.

4.  상품의 가격은 매우 중요하다. 상품 가격을 너무 낮게 책정하지 마라.

왜냐하면 혁신적인 기술 상품의 개발과 마케팅은 당신이 예상하는 것보다 훨씬 비쌀 있다.

5.  경쟁을 좋은 것이다. 경쟁자로 부터의 마케팅을 레버리지 있고 경쟁자의 상품가격과 성능면에서 빠르고 쉽고 편리하다면 너의 상품은 더욱 빠르게 시장을 장악할 있을 것이다.

6.  나의 지적 재산권이 얼마나 강력한지 고려하라.

7.  어떤 옵션을 갖고 있는가? 어떤 옵션을 선택할 것인가? 결정할때 가장 먼저 고려할 것이 무엇인가? 그리고 옵션중 무엇이 가장 리스크고 가장 기회인가? 를 분석하라.

* 참고: 벤쳐 CEO 해야할 가장 중요한 일은 현금을 관리하는 것이다. 캐쉬가 없다는 것은 바로 부도를 의미하기 때문이다.

Posted by wishart
,

다음의 경우중 여러분은 어떤 것을 선호합니까?

Case 1>

같은 직장을 다니는 친구가 있다.

친구와 나는 연차도 같고 능력도 같다.

그리고 이 친구의 연봉이 5천만으로 나와 같다.

 

Case 2 >

같은 직장에 다니는 친구가 있다.

연차도 능력도 case1 처럼 같은 상황이다.

그런데 연봉이 친구는 7만원이고 나는 5천 8백만원이다.

 

경우 여러분이라면 어떤 경우를 선호하는가?

이런 재미있는 질문에 많은 사람은 1번을 선택한다고 한다.

아이러니 하지 않는가?


Posted by wishart
,

여러분은 직장선택에 있어서 무엇이 중요하다고 생각하나요?

재미있는 연구결과가 있어서 공유를 합니다. 시티은행과 시카고 MBA 학생을 대상으로 조사한 결과 직장선택기준으로 자신에게 가장 중요한 순서대로 평가한 결과와 너의 직원의 입장에서 중요할 같은 평가 결과가 서로 다르다는 것입니다.

아래 표를 보시면 자신에게 중요한 것은 자기개발이라고 이야기 반면, 자기들 직원들에게 가장 중요할 것이라고 생각하는 것은 연봉입니다. 그리고 가장 중요하지 않을 것이라고 생각하는 것은 자신에게는 안정적인 직장이요 라고 말하지만 자기 직원들에게 가장 중요하지 않은 것은 격려와 칭찬입니다.

평가항목

To your self

To your employee

복지수준(bnefit)

7

4

가치(worthwhile)

5

7

격려와 칭찬 (Praise)

6

8

연봉 (Pay)

4

1

일로부터 자기개발 (Learning)

1

6

안정적인 직장 (Job Secrurity)

8

3

그냥 내가 좋아서

5

5

스킬 향상 (Skill)

2

2

 

이런 결과가 시사하는 바가 무엇일까요

여러분들 입장에서도 같은 결과를 얻었나요?

궁금하네요. ㅋㅎㅎ


Posted by wishart
,

원산지 패러독스와 5가지 극복방법-  5 Strategies for Combating Provenance Paradox

하버드 비지니스 스쿨 로히트 데쉬판데(Harvard Business School professor Rohit Deshpandé) 교수의 5가지 원산지 패러독스를 극복하는 방법을 소개를 하였다. 개념은 브랜딩을 공부하면서 처음 접하게 되었는데  경영학에 나중에도 도움이 같아 정리를 해보았다. 먼저  원산지 패러독스란 말은 어떤 상품이 품질이 높음에도 불구하고 전통적인 원산지에서 생산된 것이 아니라고 하여 평가절하되는 말한다.

 이를 극복한 예로서 대표적인 것이 멕시코의 대표적인 맥주,  코로나와 저렴하고 품질높은 칠레와인을 가장 쉽게 떠올릴 있을 것이다. 사실 브랜딩을 공부하기전에 코로나가 멕시코 맥주인줄 몰랐다는 그냥 뜨거운 태양아래 해변에서 즐겁게 노는 남여들이 마시는 맥주아마 미국 것일거야라는 생각외에 해본적이 없었다.

그리고 칠레와인이 와인제조의 패러다임을  신세계 와인 생산국가의 대표적인 케이스라는 것도 모르고 있었다는 ㅎㅎㅎ. 여기서 신세계란 프랑스 지방의 전통적인 소규모 와인제조 방식에서 소비자의 기호와 입맛에 맞게 와인맛을 연구하고 그에 맞게 제조해서 성공을 거둔 대규모 와인제조 방식으로 와인을 생산하는 국가들을 말합니다. 칠레, 호주, 뉴질랜드, 캘리포니아 와인이 대표적이죠.

 

Five Strategies for Combating the Provenance Paradox

 

1. Stick to Colonial History

Examples: Turkish rugs, Indian spices, Egyptian cotton, Brazilian iron ore

The strategy: Focus on the pure-play commodities that made your country’s economy successful in the colonial era. Continue to be a low-cost supplier by achieving scale. Hope you can compete with low wages elsewhere.

The threat: Competing on price is increasingly difficult in a global economy.

2. Build a Brand for the Long Haul

Examples: Nissan (née Datsun), Honda, Toyota

The strategy: Follow Japanese companies that, over decades, created brand-building strategies to overcome stereotypes and misperceptions. Eventually, move upmarket to create luxury brands like Infiniti, Acura, and Lexus.

The threat: This patient approach requires strategic and financial commitment that many aren’t willing to make.

3. Flaunt Your Country of Origin

Example: Colombian coffee

The strategy: Take an aggressive approach to change cultural perceptions. Colombian coffee built two brands—“100% Colombian Coffee” and “Juan Valdez”—to transform the country’s image from negative (source of illegal drugs) to positive (robust coffee).

The threat: This risky strategy requires deeply engaged brand management.

4. Downplay Your Country of Origin

Example: Corona beer

The strategy: Focus branding on aspects of the product unrelated to provenance, or invent a new position in the category. Corona positions itself as lifestyle beer and underemphasizes its Mexican roots. It focuses on “fun, sun, beach”—whether the beach is in Bali, on the French Riviera, or in Cancun isn’t part of the brand story.

The threat: This strategy carries risk of appearing inauthentic.

5. Hide Behind a Front Country

Example: None that wants to talk about it.

The strategy: Create a separate, local brand to avoid the market’s biases against the country of origin.

The threat: Exposure could reinforce negative stereotypes about your brand’s home country.

전문을 보고싶다면 다음링크을 클릭해서 보시면 됩니다.

http://hbr.org/2010/12/why-you-arent-buying-venezuelan-chocolate/sb2


Posted by wishart
,

설문방법은 대답하기 곤란한 설문을 하는 경우 보다 정확한 답을 얻기 위해서 개발된 방법으로 처음에Warner (1965) 의해서 개발이 되었다. 아마 이것을 접하는 분은 통계의 위대함을 새삼 깨닫게 되는 즐거움을 얻게 같다.  방법은 가령 다음과 같은 설문을 하고자 아주 유용하다.

1.      당신은 마약을 해본 적이 있습니까?

2.      당신은 혼전에 유산 경험이 있습니까?

3.      당신은 가게에서 물건을 훔친 적이 있습니까?

4.      당신은 당신 부인 몰래 다른 여자와 6개월 내에 자본 적이 있습니까?

이런 질문을 받는 사람들이 정확한 답변을 하지 않을 것이라는 것은 쉽게 예상할 있다.

문제를 해결하는데 2가지 방법이 있다.

방법 1 : Warner(1965)

Warner (1965) 2가지 질문: (1) 나는 마약을 해본적이 있다(Qs) (2) 나는 마약을 해본적인 없다(Qc). 이런 질문지를 앞에 둔다. 그리고 주사위를 던져서 1, 2, 3, 4 가 나오면 (1) 질문에 대답을 하고 5, 6이 나오면 (2)번 질문에 답을 한다. 이때 설문조사자는 응답자가 어떤 질문에 어떻게 대답했는지 알 수 없고 단지, Yes 또는 No 의 전체 횟수와 주사위가 전체 분포가 어떻게 나왔는지만을 기록한다. , (1) (2) 번 질문이 전체 몇 번 나왔는지. 즉 개개인이 어떤 질문에 대답했는지 알수 없다. 그렇다면 이때 마약을 해본 경험이 있는 사람의 비율을 어떻게 알 수 있을까?

즉 정리하면 이 설문 방법으로 알 수 있는 것은 다음과 같다. 100번의 시행이 있었다면 우리는 주사위가 4/6 가 나올 확률이 66.6%라는것을 알기 때문에 (1)에 대한 응답이 전체에 66.6번이 나오고 (2)에 대한 답이 33 번이라는 것을 알 수 있다. 아래 표에서는 Yes라고 답한 것이 100중 20이라고 가정하였다.

 

질문\대답 Yes No Total
(1) 나는 마약을 해본적이 있다 q  67 (=p) 
(2) 나는 마약을 해본적인 없다 1-q 33(=1-p)
Total 20(=# yes) 80 100

이런 정보를 기초로 해서 우리는 조건부확률을 활용해서 원래 추정하려고 하는 마약해본 경험이 있는지를 추정한다.

(1) 나는 마약을 해본적이 있다(Qs)에 대해서 라고 대답한 확률을 q라고 하면 (2) 나는 마약을 해본적인 없다(Qc)에 대한 질문에 라고 대답할 확률은 1-q이다. 그리고 p (1) 번 질문에 대답할 확률이라고 하자. , 위의 예에서는 주사위가 1, 2, 3, 4 가 나올 확률 66.6%가 된다.

그렇다면 이때 전체 마약해본 경험이 있어요라고 대답할 확률은 어떻게 될까? 우리가 흔히 고등학교때부터 배운 베이즈 정리로 알려진 조건부 확률을 이용하면 간단히 해결이 된다.

P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*q+(1-p)*(1-q)

따라서, p=[P(yes) – (1-q)] / [2q-1]

p의 추정치는 X(=sum of xi)가 예라고 대답한 전체 사람수라고 하고 n이 전체 샘플수라고 하면 다음과 같다.

          Estimates p = [ X/n – (1-q) ] / (2q-1)

그렇다면 여기서 q=1, q=1/2, 또는q=0 이라면 어떤 일이 생길까?

q=1 이라는 의미는 질문지가 모두 (1)이라는 의미이고 q=0이라는 의미는 질문지가 모두 2이고 q=1/2라는 것은 50 50이라는 의미가 된다.

그런데 여기서 추정치 p의 분산을 계산하면 다음과 같다.

Warner 설문조사에서

Variance V(estimation for p) = p*(1-p)/n + q*(1-q)/[n*(2q-1)^2]

 

방법 2 : 관련없는 질문 (Innoccuous Question method)

Warner(1965) 질문이 완전히 서로 Exclusively 질문을 던지지만 이것은 두번째 질문을 다음과 같이 전혀 원래 질문의 의도와 관련이 없는 질문을 던진다. 그렇지만 우리가 충분히 확률적으로 예라고 대답할 확률을 있도록 설계를 한다.
다음과 같은 두 질문지가 있다.

(1) 나는 마약을 해본적이 있다(Qs)

(2) 동전을 던져라. 앞면인가? 예 또는 아니오

따라서

질문\대답 Yes No Total
(1) 나는 마약을 해본적이 있다 r                 67(=p) 
(2) 던진 동전이 앞면이다. alpha 33(=1-p)
Total 20(=# yes) 80 100

동전의 앞면이 나올 확률이기 때문에 이미 확률값을 알고 있는 r= P(yes given question 2) 이라고 하면 다음과 같은 식을 얻을 수 있다.
여기서 p는 (1)"나는 마약을 해본적이 있다(Qs)"번에 대해서 답변을 할 확률이고 q는 Waner의 설계처럼 (1)질문에 예스라고 대답할 확률이다. 여기서 우리는 실제 이 값은 알 수 없다. 또한 alpha는 (2)번 질문에 대해서 'Yes'라고 대답할 확률이다. 동전을 던졌으니 여기서는 1/2 이 될 것이다.
그렇다면 확률값은 다음과 같이 계산될 수 있다.

P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*r+(1-p)*alpha

따라서, p=[P(yes) – (1-r)] / [2r-1]

이때 추정치 p의 분산은

Var(estimator for p) = p(1-p)/n + [(1-q)^2 *r*(1-r)+r*(1-p)]/n*q^2 이 된다.

좀 복잡하지만 알고 나면 간단한 문제이다.
아주 똑똑한 설문 디자인이 아닐 수 없다. 이에 대한 자세한 정보는 위키에도 정리가 잘 되어 있다.

여기서 p가 커지면 분산은 적어지고 alpha가 클때 분산이 작아지는 경향이 있다.
그렇지만 이것이 진리는 아니라는 것을 기억하자.

Posted by wishart
,

스포츠에서 붉은색 유니폼을 입으 승리할 확률이 높아진다 말은 사실일까?

아래 전문은 2006 6 10일자 동아일보에 게제된 뉴스이다.

러셀 교수는 과학학술지네이처’ 5월호에붉은색 유니폼을 입으면 승리할 확률이 훨씬 높아진다 발표해 논란에 쐐기를 박았다.

실력 비슷하면 붉은색 유니폼 승률 60%


연구팀은 2004 아테네 올림픽 경기 권투, 태권도, 레슬링 그레코로만형과 자유형 4 격투기 종목을 분석했다. 경기자들은 파란색과 붉은색 유니폼 하나를 입는다. 연구 결과 붉은색 유니폼을 입은 선수의 승률이 55% 절반을 넘었다. 붉은색의 승률이 가장 높은 종목은 태권도였다. 러셀 박사는경기자의 실력이 서로 비슷하면 붉은색 유니폼의 승률은 60% 올라간다 말했다.

연구팀은 유럽축구대회인 유로2004 참가한 각국 대표팀의 승률도 함께 조사했다. 이들은 두어 가지 다른 색의 유니폼을 번갈아 입는데 붉은색 유니폼을 입었을 승률이 높아지는 것은 물론 골도 많이 넣었다.
....

그리고 이후로도 언론에서는 연구를 거듭  언급하면서  붉은 유니폼을 입으면 이길 확률이 높아진다는 것을 기정사실화 하였다.  그렇지만 연구는 통계적으로 못된 것으로 드러났는데 분석을 해보고자 한다. 아래 표는 Hill and Barton(2005) 의해서 수집된 데이타이다. 각각의 문제를 따라 가면서 분석을 해보자.

종목

Blue 유니폼

Red 유니폼

합계

권투(B)

120

148

268

레슬링 그레코로만형(GW)

24

27

51

레슬링 자유형(FW)

23

25

48

태권도(TaeKwon)

35

45

80

합계

202

245

447

%

45.19%

54.81%

100%

 

1.       먼저 귀무가설(null hypothesis) ‘각각의 종목에서 빨간색 유니폼을 입은 팀과 파란색 유니폼을 입은 팀의 승률은 50% 같다’ vs  대립가설 각각의 종목에서 두팀의 승률은 같지만 50% 아니다 테스트해보자.

우도함수(Likelihood ratio)  

여기서 우리는 붉은색 유니폼 팀이 이긴 횟수, 파란색 유니폼을 이긴 횟수, N 전체 승리한 횟수,     추정될 있다.

따라서 이때 피어슨 카이 검정 통계량(Pearson's Chi-square statistics) 다음과 같이 계산된다.

이때 자유도 1 카이검정통계량의 p_value 0.04로이다. 결과에 따르면 통계적으로  각각의 종목에서 두팀의 승률은 같지만 50% 아니라는 것을 있다. , 연국팀이 전체적으로 붉은 유니폼을 입은 팀이 승리할 확률이 55% 높다고 이야기하는 것은 가설을 테스트한 것이라고 있다.

따러서 가설에 의한 검정결과로 붉은색 유니폼을 입은 팀이 스포츠에서 이길 확률이 높다는 것은 논리적으로 맞는 말이 아니다.

이것을 제대로 테스트를 하려면 다음( 2) 같은 가설을 세워야 한다.

2.      먼저 귀무가설(null hypothesis) ‘각각의 종목에서 빨간색 유니폼을 입은 팀과 파란색 유니폼을 입은 팀의 승률은 50% 같다’ vs  대립가설 (alternative hypothesis)‘각각의 종목에서 두팀의 승률은 다르고 확률이 50% 아니다 테스트해보자

자유도 3에서 카이제곱 통계량은 0.3015 갖고 p value 0.9597 통계적으로 유의하지 않다.

따라서 붉은 유니폼을 입은 팀이 승리할 확률이 높다는 것은 사실이 아니라고 있다. 연구팀은 단순 전체 승률을 비교한 것으로 (1) 번의 테스트를 고려한 것이고 셀제로 이렇게 테스트를 해야한다.

이게 바로 통계의 미학이 아닐까 생각한다.

재미있는 이야기라서 정리해서 올려둔다.


Posted by wishart
,