지친 일상의 비상구- Chage the rule of the game so that other players don’t know how to play the game!

맥니마 검정(McNemar test, paired test. 혹은대응표본검정 )- 범주형 자료분석

Data, Modeling, and Decisions 2011. 3. 26. 15:01

맥니마 검정은 두 개의 변수가 paired 되어 있을때 사용할 수 있는 테스트로 우리가 흔히 접하는 카이스퀘어의 독립성검정이나 적합성 검정법과는 다르다. 이 검정법은 의학통계나 사회과학에서 많이 사용되고 있다.

우리가 흔히 범할 수 있는 오류로 두 변수가 합께 쌍을 이루고(독립이 아니다) 있음에도 불구하고 일반적인 카이스궤어 검정을 하면 통계적으로 매우 유의하게 나올 수 있는 상황에서도 유의하지 않다고 나오는 경우가 많다. 따라서 데이타의 성질을 제대로 파악하고 통계방법론을 적용해야 한다.

아래 테이블은 2개의 paired변수가 다음과 같이 있을때 실제 테스트 하고자 하려는 목적은 이들의 독립성이 아니라 확률 (0,1)과 (1,0)의 확률값이 같은지를 테스트를 하고자 한다.

	*Y_i* = 0	*Y_i* = 1

*X_i* = 0	a	b
*X_i* = 1	c	d

맥니마 검정(McNemar test)는 다음과 같은 가정을 한다.

1. (X_i,Y_i) 는 상호 독립이다.

2. 각각의 X_i 와 Y_i 는 두개의 가능한 결과를 갖는다. 즉 0 아니면 1의 카테고리 값을 갖는다.

3. 차이값= P(X_i = 0, Y_i = 1) - P(X_i = 1, Y_i = 0)을 귀무가설에서 0 로 놓고 테스트 하는 것이 결국은 어떤 실험전후의 테스트 혹은 기존의 방법과 새로운 방법론 사이에 대한 차이값이 있는지 없는지를 테스트 하는 결과가 된다.

여기서 P₁ = P(X_i = 0, Y_i = 1) , P₂ = P(X_i = 1, Y_i = 0) 이라고 한다면 맥니마 검정은 다음과 같이 놓을 수 있다.

H₀:	P₁ = P₂ for all i
H_a:	P₁ ≠ P₂ for all i
Test Statistic:	If b + c > 20, T₁ = (b - c)²/(b + c) If b + c ≤ 20, T₂ = b 수정된 검정통계량T₁: T₁^' = (\|b - c\| - 1)²/(b + c)
Significance Level:
Critical Region:	T₁ >

그렇다면 실제 데이타를 분석함으로써 이것이 일반적인 카이스퀘어 검정과 어떻게 다른지 완벽하게 이해를 해보도록 하자.

예제 1> 아래와 같이 유세 전후 정당의 지지도의 변화율을 알아보고자 한다. 이때 조사한 사람들은 결국 유세전후 같은 사람들을 대상으로 조사를 해야한다. 그래야 아래와 같은 표를 얻고 우리가 테스트 하려고 하는 가설은 다음과 같다.

	유세후
유세전	A 정당	B 정당	계
A 정당	40(p11)	20(p12)	60(P1.)
B 정당	10(p21)	30(22)	40
계	50(P.1)	50(P.2)	100

H0: 유세전 A정당의 지지도는 유세후 B 정당의 지지도와 같다. 즉 이것은 유세전 B정당의 지지도는 유세후 B정당의 지지도와 같다.

이것을 수식으로 나타내면

p11+p12=p11+p21---(1)

P21+p22=p12+p22---(2)

(1), (2)의 방정식을 풀면 결국 p12=p21 이 된다. 따라서 이 가설을 다음과 같이 쓸 수 있다.

H0: p12=p21

이것은 결국 지지율에 변화가 생긴사람들( A->B, 혹은 B->A ) 이 변화율이 차이가 많으냐 아니냐를 테스트 하는 의미가 된다. 그리고 이때 검정 통계량은 다음과 같다.

X^2=[n12-(n12+n21)/2]^2/[(n12+n21)/2]+[n21-(n12+n21)/2]^2/[(n12+n21)/2]

=(n12-n21)^2/(n12+n21)

따라서 이 가설을 검정하면 다음과 같은 결과를 얻는다.

X^2=(20-10)^2/30=3.333 < X^2 ,0.05 = 3.84

유세전후 지지율 차이는 없다고 볼 수 있다.

예제2> Vianna, Greenwald, and Davies(1971) 는Hodgkin's 질병을 앓고 있는 환자들을 조사하였다. 그리고 Tosillectomy이 면역력을 떨어뜨려Hodgkin's 질병을 유발한다는 것을 밝혀내려고 아래와 같은 데이타를 조사하였다. 그리고 이들은 카이제곱검정을 통하여 Chi-square statistics = 14.26 으로 확실히 유의하다는 결론을 얻었다.

	Tosillectomy 유무
	Tosillectomy	No Tonsillectomy	계
Hodgkin's	67	34	101
Control	43	64	107
계	110	98	208

그리고 Johnson and Johnson (1972) 는 85명의Hodgkin's 질병을 앓은 환자의 5살 차이이내의 성별이 같은 형제들을 조사여 다음과 같은 결과를 얻었다.

	Tosillectomy 유무
	Tosillectomy	No Tonsillectomy	계
Hodgkin's	41	44	85
Control	33	52	85
계	74	96	170

그리고 이들은 Chi-statistics=1.53 을 얻어Hodgkin's는Tosillectomy와 아무런 관련이 없다는 결론을 얻었다. 그러나 얼마후 많은 사람들이 문제를 제기하였다. 왜냐하면 형제와 환자간은 독립이 아니기 때문에 이렇게 분석을 하면 안된다는 것이 었다.

그리고 이들은 위에서 설명한 맥니마 검정법을 제시하였다.

	Sibling
Patient	Tosillectomy	No Tonsillectomy	계
Hodgkin's	37	7	44
Control	15	26	41
계	52	33	85

이것은 X^2 = 2.91로 P_value=0.09로 Johnson and Johnson의 결과에 상당한 의문을 갖게 하는 결론을 얻었다.

이렇게 맥니마 검정에 대한 설명을 마침니다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

본페로니 검정법 (Bonfenoni Test)란 무엇인가? (0)	2011.04.07
표본조사- 오차범위(margin of error 혹은 표본오차범위의 의미, 지지율의 신뢰구간과 샘플크기 결정문제 (0)	2011.03.28
통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용 (0)	2011.03.26
SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출 (0)	2011.03.25
통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23

Posted by wishart

,

소프트웨어 회사의 재무분석

The Business of Software & Digital palforms 2011. 3. 26. 13:46

소프트웽에 회사들의 재무분석을 해보는 것은 산업분석에서 아주 흥미로운 일이 될 것이다.
아래는 미국에 주요 소프트웨어 회사의 재무 분석을 해본 것인다.

여기서 아주 잼있는 것은 애플이 겨우 R&D에 전체 매출에서 3% 정도 밖에 투자를 하지 않는다는 것이다. 이것은 세상에서 가장 혁신적인 회사로 알려진 애플이 R&D에 이렇게 인색하다는 것이 믿겨 지지 않을 따름이다. 왜 그런 것일까? 제조업체라서 워낙 제품의 생산단가가 높은 탓이려니 생각을 해도 너무나 적은 수치이다.
왜 이렇게 적은 것일까? 혁신에 필요한 것이 연구개발이 아니라 다른 무엇이 있는 것일까?
참 의문이 많이 가는 대목인데...아직 답을 찾지는 못했다.

참고로 삼성전자의 R&D 비중은 매출액의 8.1%인 7조2721을 2009년 집계 되었고 2010년은 이보다 1% 정도 줄어든 7%대정도 인 것으로 분석된다.

아래 표에는 분석되지 않았으나 삼성전자의 2010년 영업이익률과 순이익율은 10.97%, 11.79%이다. 이것도 이전에 비해서 거의 2배이상 성장한 것인데 미국의 회사들은 보통 영업이익률이 많게는 30% 이상을 기록하고 적게는 20% 웃도는 정도가 된다. 세이즈포스닷컴은 아마도 대행영업비용을 상당히 많이 지불해서 영업이익률이 떨어진 듯 보인다.

Firm	Op. Profit	Gross Margin	Market Cap x	Sales / Person	Sales/	R&D	% Prof.
			Current Sales		Mktg/	%	Services
			Rev Growth vs		G&A %
			Prior Year
Microsoft	38%	80%	4x 7%	$ 723K	27%	14%	5%
Google	35%	60%	8x 8%	$1200K	16%	13%	nil
Oracle	34%	64%	6x 15%	$ 257K	22%	12%	11%
Infosys	30%	45%	8x 4%	$ 53K	11%	2%	96%
Apple	28%	39%	5x 52%	$1300K	8%	3%	nil
SAP	24%	67%	4x -8%	$ 300K	26%	15%	26%
IBM	19%	46%	2x -9%	$ 240K	19%	6%	58%
Salesforce	9%	80%	15x 21%	$ 325K	46%	15%	7%
LinkedIn	6%	81%	? 100%	$ 220K?	39%	27%	nil
(est.)	6%	81%	? 100%	$ 220K?	39%	27%	nil

위의 표에서 보면 아직 마이크로소프트는 아주 건재하다는 생각이 들고 구글은 대단하다고 밖에는 생각이 안된다. 그렇다면 이런 재무적인 퍼포먼스를 내기 위해서 어떤 소프트웨어 전략이 필요한지 궁금해진다.

그것은 아마도 과거 product 중심에서 서비스로서의 소프트웨어로의 전환이 아닐까 생각한다. 즉, up front 에서 한방에 팔아 돈을 버는 구조에서 운영과 업그레이드를 통한 서비스 비용을 부과하면서 지속적으로 자사의 제품에 고객을 lock-in 시키고 recurring 매출을 하는 구조말이다.

거기에 자사 서비스의 플랫폼화가 주요 특징이라 여겨진다. SAP, Oracle, 구글. 세이즈포스닷컴 같은 회사들은 일찍이 이런 비지니스모델의 변화 트렌드를 일고 일찌감치 자사의 플랫폼을 일정정도를 오픈하고 여러 소프트웨어 회사들이 자사의 플랫폼에 들어올 수 있도록 유도하였다.

그리고 거대한 비지니스 생태계를 구성했다.
아마도 이런 트렌드는 앞으로 클라우딩 서비스 개념으로 더욱 진화하면서 소프트웨어 비지니스 전반을 바꾸게 될 것이다. 그렇게 보면 인포시스와 같이 서비스가 늘어나면 인력을 늘려나가야 하는 구조는 미래에 불리한 비지니스가 될런지 모른다.
참고로 저는 인포시스가 인도회사이면서 미국에서 성공한 대표적 회사라는 것을 몰랐다는...ㅋㅎㅎ

'The Business of Software & Digital palforms' 카테고리의 다른 글

스티브 잡스와 빌게이츠의 전략과 최후의 승자는? ...그리고 구글 (0)	2011.04.05
태블릿 시장의 미래? 아이패드, 캘럭시탭... (0)	2011.04.05
페이스북 건물은 어떻게 생겼을까? (0)	2011.03.27
네트워크 효과 (network effect) (0)	2011.03.23
클라우드 컴퓨팅(Cloud Computing)이란 ? (0)	2011.03.12

Posted by wishart

,

통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용

Data, Modeling, and Decisions 2011. 3. 26. 13:00

T test 는 가장 기본이면서 쉬운 검정법이지만 시간이 지나면 항상 가물 가물해지면서 사뭇 헛갈리는 경향이 있는 통계의 중요한 부분이다.

이게 시간이 지나면서 헛갈리는 이유는 복잡한 분산공식때문이기도 한데 웹상에 한 번 잘 정리가 된다면 앞으로 쉽게 기억하고 문제 해결을 할 수 있지 않을까 하는 생각에서 정리를 해보았다.
T 검정은 단일그룹검정, 쌍별비교검정, 서로다른 두 그룹에 대한 테스트 이렇게 3개로 나눠 볼 수있는데 ,먼저 단일그룹부터 하나 하나 살펴보도록 하겠다.

아래 데이타는 A 그룹과 B 그룹의 각각의 값을 나타낸다. 이것은 원래 paired 된 데이타인데 분석 방법을 설명하기 위해서 경우에 따라서 분리해서 분석할 것이다.

A 그룹	B 그룹	차이(dif)
97.2	97.2	0
105.8	97.8	8
99.5	96.2	3.3
100	101.8	-1.8
93.8	88	5.8
79.2	74	5.2
72	75	-3
72	67.5	4.5
69.5	65.8	3.7
20.5	21.2	-0.7
95.2	94.8	0.4
90.8	95.8	-5
96.2	98	-1.8
96.2	99	-2.8
91	100.2	-9.2

1. 단일그룹 T 검정법

여기서 "H0: 그룹 A의 평균은 85이다" 를 T검정을 해보자. 어떻게 SAS 명령어를 써야 할까? 이것은 간단하다.

proc ttest data=kkk H0=85;
var a;run;

단지 데이타셋 명에 옵션을 H0=85 라고 주면 된다. 그렇게 하면 아래와 같은 결과값을 얻는다.

DF t Value Pr > |t|

14 0.05 0.9628

즉 p value=0.9628로 H0를 기각할 수 없다.

2. 쌍별비교(paired T test)

A와 B 그룹이 각각 쌍을 이루고 있다고 하자. 가령 실험전후 몸무게나 키 같은 것이라고 생각해보자.
그렇다면 이때 T검정은 결국은 전후의 차이가 있는냐 없느냐가 될 것이다. 따라서 전후의 차이(A-B)의 합이 0이냐 혹은 아니냐의 검정이 된다.
이것은 서로를 위의 표에서 처럼 차이를 구한다음 이 차이가 0인지를 검정하는 단일그룹 T 검정법을 사용하는 것과 마찬가지인데 SAS에서는 이렇게 차이를 구하지 않고 서도 T 검정을 하는 옵션이 있다.
그 옵션은 다음과 같은 명령어를 사용하면 된다.

proc ttest data=kkk ;
paired a*b ;run;

Variable: diff

N Mean Std Dev Std Err Minimum Maximum

15 0.4400 4.6308 1.1957 -9.2000 8.0000

Mean 95% CL Mean Std Dev 95% CL Std Dev

0.4400 -2.1244 3.0044 4.6308 3.3903 7.3032

DF t Value Pr > |t|

14 0.37 0.7184

자유도 14를 갖고 T통계량 0.37를 갖으면 P-value=0.7184이다. 즉 H0를 기각할 수 없다.

아래처럼 명령어를 주면 두 변수의 차이 diff의 분포를 보여준다. 이것을 보면 대충 이게 유의할지 않할지 짐작할 수 있도록 해준다. univariate 는 diff가 0인지 정규근사를 통해서 검정을 해준다. 즉 아래 명령어는 T검정이 맞는지를 더블체크할 수 있는 대략의 감을 준다고 보면된다.

proc univariate data=kkk;
var diff ;
histogram diff /kernel;run;

* 단일그룹 T검정과 쌍별비교(paired T test)을 위해서 데이타 셋은 다음과 같이 입력되어야 한다.

data kkk;
input A B diff @@;
cards;
97.2 97.2 0
105.8 97.8 8
99.5 96.2 3.3
100 101.8 -1.8
93.8 88 5.8
79.2 74 5.2
72 75 -3
72 67.5 4.5
69.5 65.8 3.7
20.5 21.2 -0.7
95.2 94.8 0.4
90.8 95.8 -5
96.2 98 -1.8
96.2 99 -2.8
91 100.2 -9.2
;
run;

3. 서로다른 두 그룹의 평균비교

A, B 그룹이 서로 다른 그룹에서 나온 데이타라고 가정해보자. 가령 제주도 사람의 평균키와 서울 사람의 평균키를 비교하는 예라고 하자. 이런 경우는 SAS에서 class라는 명령어를 준다. 그리고 데이타 입력방법도 달라진다. 맨아래 데이타입력하는 방법을 넣었다. 또한 결과 해석을 할때도 두 그룹의 분산이 같은지 다른지에 따라서 T 통계량 값이 다르게되므로 반드시 먼저 분산이 같은지 테스트 결과를 본 다음 T통계량을 봐야 한다.
proc ttest ;class method;var dosage;run;

method Method Mean 95% CL Mean Std Dev 95% CL Std Dev

A 85.2600 73.5220 96.9980 21.1961 15.5182 33.4284

B 84.8200 72.8839 96.7561 21.5538 15.7801 33.9925

Diff (1-2) Pooled 0.4400 -15.5484 16.4284 21.3757 16.9633 28.9096

Diff (1-2) Satterthwaite 0.4400 -15.5486 16.4286

Method Variances DF t Value Pr > |t|

Pooled Equal 28 0.06 0.9554

Satterthwaite Unequal 27.992 0.06 0.9554

Equality of Variances

Method Num DF Den DF F Value Pr > F

Folded F 14 14 1.03 0.9510

위에서 Folded F의 P-value가 0.9510으로 두 집단의 분산은 같다고 볼 수 있다. 따라서 우리는 pooled 분산을 이용한 t 검정 결과를 보고 두집단의 평균비교를 해야한다.사실 아래 히스토그램을 보면 두 집단의 분산은 유사할 것이라는 것을 집작할 수 있고 두 평균도 같을 것이라는 것을 대략 알 수 있다.

그리고 이들 각각의 변수의 히스토그램을 보고 싶다면 다음과 같이 명령어를 쓰면 동시에 A그룹과 B 그룹의 히스토그램의 형태를 비교분석할 수 있는 그래프를 준다.

proc univariate data=kkk1;
class method;var dosage ;
histogram dosage /kernel;run;

서로다른 두 그룹의 평균비교를 할때는 아래와 같이 데이타를 입력해야한다.

data kkk1;
input method $ dosage @@;
cards;

A 97.2 B 97.2
A 105.8 B 97.8
A 99.5 B 96.2
A 100 B 101.8
A 93.8 B 88
A 79.2 B 74
A 72 B 75
A 72 B 67.5
A 69.5 B 65.8
A 20.5 B 21.2
A 95.2 B 94.8
A 90.8 B 95.8
A 96.2 B 98
A 96.2 B 99
A 91 B 100.2
;
run;

이상으로 설명을 마치려고 한다.
사실 각각의 값에대한 설명을 수식으로 설명해야 하나 복잡함을 피하고자 한다.
여기서 Standard error는 샘플평균의 표준편차를 의미한다. SAS에서 무조건 Standard error는 샘플평균의 표준편차라는 것을 기억해 두자.

'Data, Modeling, and Decisions' 카테고리의 다른 글

표본조사- 오차범위(margin of error 혹은 표본오차범위의 의미, 지지율의 신뢰구간과 샘플크기 결정문제 (0)	2011.03.28
맥니마 검정(McNemar test, paired test. 혹은대응표본검정 )- 범주형 자료분석 (0)	2011.03.26
SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출 (0)	2011.03.25
통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21

Posted by wishart

,

하버드 도서관(Havard library)은 어떻게 생겼을까?

Life 2011. 3. 26. 02:20

얼마전 하버드 다니는 친구의 안내로 하버드 도서관을 가게 되었다.
메인 도서관은 존하워드 동상근처에 있는데
먼저 존하워드 동상에서 한 컷 찍고...

놀라움을 감출 수 없었던 순간이었다.
이게 도서관인지 수백년된 초특급 박물관인지 구분이 안되는 그야말로 도선관만 보고도 이 학교에 입학하고픈 마음이 드는 곳이 였다.
책 빌린 것을 처리하는 프론트는 이 정도는 되어야...ㅋㅎㅎ

수백전 책들이 즐비하게 있었고
공부하는 학생들도 아주 조용이 뭔가에 몰두하고 있는 듯한 느낌이었다.
하바드 도서관을 나오때는 정말 내가 들고 있는 가방을 샅샅이 뒤지다시피 조사를 했다.
워낙 비싸고 오래된 책이 많은 곳이다 보니 도난사고를 막기위해서 그렇게 하는 듯 하였다.
아래 사진은 1층에 공부하는 곳인데...참 멋지다는 생각밖엔...

이게 바로 하버드...라는 생각이 들었다.
하바드는 캠퍼스도 정말 멋진 곳이지만 도서관도 너무 아름답다는 생각이 들었다.
MIT 도서관은 그야말로 창고같은...ㅋㅎ
다음엔 MIT 도서관을 찍어 올려봐야겟다.

'Life' 카테고리의 다른 글

보스턴 MIT 유학시 기숙사 정보 (0)	2011.03.30
보스턴 MIT 유학: 이주전 할일과 미국에 처음에 와서 해야할 일 (0)	2011.03.30
보스턴 유학: 미국운전면허 및 자동차 구매 (0)	2011.03.30
미국에서 차사서 한국으로 가져갈때 비용 - 차 가져가는 것이 득이될까요? (0)	2011.03.23
캘리포니아 타호 호수 (Tahoe Lake) (0)	2011.03.23

Posted by wishart

,

SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출

Data, Modeling, and Decisions 2011. 3. 25. 06:32

통계학을 공부할때 가끔 필요한 것이 샘플링이다.
샘플링은 샘플수에 따른 비용을 고려하여 여러가지 방법이 있는데 이런 복잡한 샘플링 방법을 명령어 몇 줄이면 SAS에서 가능하다. 여기서는 간단히 복원과 비복원 심플랜덤샘플링을 하는 법만 설명해둔다. 이것을 알면 혹시 북스트래핑할 때 아주 유용하게 이것을 이용할 수 있다. 프로그램밍이 시간이 많이 들어가니 기억해 두자.

1. 비복원 단순 랜덤 새플링 (Simple ramdom sampling without replacement )

method=srs 이라고 하면 method 옵션을 srs라고 준 것으로 비복원 심플랜덤샘플링을 하라고 하는 명령이다. 아래 명령어는 데이타 셋 Customers로 부터 100개의 샘플을 비복원으로 뽑아서 SampleSRS 에 저장하라는 말이 된다.

proc surveyselect data=Customers method=srs n=100 out=SampleSRS;
run;

2. 복원 단순 랜덤 샘플링 (Simple ramdom sampling witht replacement )

위의 명령어에서 method옵션을 urs ( unspecified random sampling)이라고 주면 간단히 복원랜덤추출법이 된다. 설명은 위와 같다.

proc surveyselect data=Customers method=urs n=100 out=SampleSRS;
run;

3. 층화추출 샘플링(Stratified Random Sampling)

층화추출을 층(stratum)간 분산은 크고(heterogeneous), 층(stratum)내 분산은 작을때(homogeneous)할때 사용하는 샘플링방법입니다. 이런 층화추출 샘플링을 사용하기 위해서는 반드시SAS에서는 starata에 대해서 sorting를 먼저하고 명령어를 사용해야 합니다. 아래 예제 프로그램은 state 와 type 변수에 따른 층화추출방법입니다.

   proc sort data=Customers;
      by State Type;
   run;

   proc surveyselect data=Customers method=srs n=15
         out=SampleStrata;
      strata State Type;
   run;

그리고 SAS에서는 좀더 고급의 샘플링 방법도 처리가 가능합니다.

• Proportional Allocation - 각각의 stratum(층)의 전체 모집단의 비율에 따라 각 stratum에 샘플수를 할당하는 방법

• Optimal Allocation- stratum sizes, stratum variances, stratum costs 을 고려한 샘플링

• Neyman Allocation - stratum sizes과 stratum variances 를 고려한 샘플링

따라서 옵션에 위에 필요한 변수들을 할당할 것을 SAS에서는 요구합니다.

자세한 것은 아래 링크를 참조하세요.
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_surveyselect_sect011.htm

'Data, Modeling, and Decisions' 카테고리의 다른 글

맥니마 검정(McNemar test, paired test. 혹은대응표본검정 )- 범주형 자료분석 (0)	2011.03.26
통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용 (0)	2011.03.26
통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0)	2011.03.11

Posted by wishart

,

이베이 대표( eBay CEO) 존 도나호(John Donahoe)의 강연을 듣다.

Notetaking 2011. 3. 25. 05:01

전체적으로 괜찮은 친구였다. 젊은 시절 스탠포드에서 공부할 시절 법대 다니는 와이프랑 번갈라 바쁘게 아기를 돌보며 살았다고 하면서 성공하기 위해서는 치열하게 사는 것을 당연시 생각하는 듯한 느낌이었다.
그러니깐 지금 이베이에 대표가 되지 않았나 하는 생각이 들었다.

존 도나호는 최근 비지니스의 키드렌드를 4가지로 요약하였다.
누구나 알 수 있는 것이지만 존도나호의 어조는 누구보다도 명쾌했다고 할까?

1. 모바일
2. 로컬
3. 소셜
4. 디지털 소비 - 아이패드, TV

이런 비지니스 트렌드는 분명히 유저의 행태를 바꿀 것이라는 것이 그의 생각이다.

그는 기업이 끊이 없이 혁신하지 않으면 역사속으로 사라질 것이라고 하면서 넷스케이프와 야후가 그랬고 이베이와 페이팔도 그런 경우가 될 수도 있고 구글도 요즘은 페이스에 밀리고 있는 것을 이야기 하면서 앞으로 3년후는 어떻게 바뀔지 아무도 모른다고 했다.
따라서 혁신을 해야 하는데 혁신은 다음의 3가지로 나눠볼 수 있다고 하였다.

1. 핵심사업의 혁신(Core Innovation) - 말그대로 현재 핵심비지니스의 혁신을 말한다. 그런데 새로운 고객은 변화를 원하지만 현재 고객은 익숙한 환경의 변화를 싫어한다. 따라서 현재 고객의 니즈에 맞추려고 하는 기업은 자연스럽게 혁신적인 변화를 피하게 되고 이게 바로 많은 성공한 회사가 혁신을 하기가 어려운 이유이다. 그는 이런 혁신을 "Least sexy stuff but most important" 라고 하였다.

2. 제이슨 이노베이션 (Social Innovation) - 모바일 커머스와 모바일 페이먼트 같은 것이 좋은 예가 될 것인데 이게 가장 쉬운 혁신이다. 왜냐면 기존의 사업의 인터페이스를 확장하는 것이기 때문이다. 급속히 이베이의 모바일 매출이 성장하고 있음을 언급하였다. 그런데 왜 이베이는 그루폰을 못만들었을까 의문이 드는 대목이 여기서였다.

3. 파괴적인 이노베이션(Distruptive Innovation) - 이것은 구글, 이베이, 페이팔, 페이스북 같은 회사가 거쳐왔던 혁신으로 성공확률로 이야기 하면 1/1000이라고 했고 큰 회사 입장에서는 인수합병을 통해서 즉 오픈 이노베이션을 통해서 주로 자기들은 한다고 이야길 하였다. 그래서 마일로를 인수했다고 하였다.

마지막으로 그는 페이팔이 앞으로 이베이의 매출을 뛰어 넘을 것이라는 것을 암시하였다.

그와의 CNBC와의 인터뷰를 보고 싶다면
http://www.cnbc.com/id/15840232?video=1314093048

'Notetaking' 카테고리의 다른 글

Z Corporation: Rapid Prototyping and 3D Printing - 기술벤쳐의 위기극복 (0)	2011.04.11
오션 스프레이 (Ocean Spray)의 위기를 Randy Papadellis는 어떻게 극복했는가? (0)	2011.04.07

Posted by wishart

,

미국에서 차사서 한국으로 가져갈때 비용 - 차 가져가는 것이 득이될까요?

Life 2011. 3. 23. 14:46

답: No or So So

미국에 나오시면 의례 생각 하는 것이 외제차 사서 가져가면 돈버는 거네라고 생각할 수 있을 것입니다. 그렇지만 요즘은 예전과는 달리 별로 득이 없을 것 같네요.

저도 차를 가져갈까 망설였는데 관련 사이트 자료모아서 돌려보니까..그닥 메릿 없네요. 혹시 한국에 차가져 갈라고 생각하시는 분들 참고하세요.

1) 입국일로 부터 3개월 이전 차량 소유권 등록이 되어 있어야 이사화물로 간주 가능.

(신차 또는 중고차 새로 구입 경우 6월말 귀국일 경우, 3월말까지는 등록해야 함)

2) 이사화물로 간주 받기 위해서는 1년이상 체류 해야 함.

3) 각 차량별 구매가격을 첨부에 넣으면,,,현재 기준 세금 및 관세 그리고 기타
등록비용까지 쭉 보실 수 있습니다.(2000CC이상은 34%, 2000이하는 26%입니다)

4) 한국 생산 현대차의 경우 재수입에 따른 세금 면제 입니다. 그러나 미국 알라바마
생산 소나타의 경우는 해당되지 않습니다.

저의 결론, 제네시스 정도 한국에서 몰고자 하시는 분은 추천. 그렇지 않으면 상당 고급차의 경우 해보실 만 함...그외의 경우라면 비용측면에서는 큰 메리트 없습니다.

참조한 곳은 인천세관 승용차 이사화물 관련 site를 기준으로 simulation 했습니다.
시뮬레이션 해보시라고 엑셀쉬트 첨부합니다.

차가져갈경우.xlsx

'Life' 카테고리의 다른 글

보스턴 MIT 유학시 기숙사 정보 (0)	2011.03.30
보스턴 MIT 유학: 이주전 할일과 미국에 처음에 와서 해야할 일 (0)	2011.03.30
보스턴 유학: 미국운전면허 및 자동차 구매 (0)	2011.03.30
하버드 도서관(Havard library)은 어떻게 생겼을까? (0)	2011.03.26
캘리포니아 타호 호수 (Tahoe Lake) (0)	2011.03.23

Posted by wishart

,

캘리포니아 타호 호수 (Tahoe Lake)

Life 2011. 3. 23. 07:34

보스턴에 살고 있는데 우연한 기회로 샌프란 시스코에 갔다가 친구들이 타호에 놀러가자고 해서 급작스럽게 영행을 하게 되었다. 원래는 샌프란 시스코에 잠시 일로 머물다 다시 보스턴으로 돌아가려고 했는데 타호라는 곳은 첨들어보는 곳이기도 하고 친구들이 샌프란시스코에서 10년 이상 살았다는 것만으로 그들이 하는 말을 그냥 믿기로 했다. 그들은 타호만큼 훌륭한 여행지도 없다고 여러차례 권유할만큼 자신했다.
나는 샌프란시스코의 그 유명한 골든게이트 블릿지와 베이 브릿지도 가보지도 못하고 먼발치에서 바라봤을 뿐인데 말이다. 그리고 샌프란시스코 근처에 그 유명하다고 하는 소노마, 나파벨리도 못갔는데...
암튼 이렇게 급작스레 떠난 여행 그냥 즐기자는 맘으로 따라갔다.

지도로 여기를 나타하면 다음과 같다. 자동차로 한 5시간 정도 운전을 했던 것 같다.

지금은 3월 말 거의 4월을 향해 달려가는데 가자마자 온 동네가 눈으로 덮혀 있는 것을 보고 깜짝 놀랐다. 그것도 눈이 1미터 이상이 쌓였있는...우리가 머문 곳은 North Star Valley 주택가에 렌트를 했고 스키는 1970년인지 언제인디 동계 올림픽을 개최했던 Squaw valley ski resort 에서 즐겼다. 하얀눈이 너무 너무 아릅다웠다.
첫날은 스키와 보드를 타고

아래 사진은 타호 호수의 아름다음을 그대로 담아보려고 찍어보았다.

그리고 다음날은 스노모빌을 예약해서 탔다. 스노모빌은 2시간 정도 눈으로 덮힌 산중을 헤치며 타는데 가격은 좀 셌다. 인당 130달러에 2인용으로 하면 160달러를 내야했다. 그렇지만 타호의 아름다운 호수를 보면서 수미터가 쌓인 눈위를 달리는 기분은 정말 여기가 아니면 경험할 수 없겠구나 하는 생각이 들게 하였다.

그리고 우리는 3일째 되는날 다시 샌프란 시스코로 향하려고 했다.
그러나 눈이 너무 많이 와서 도로가 차단되어 갈 수없었고 설상가상으로 타이어가 스노우 체인에 찔리는 바람에 나갈 수가 없엇다. 그래서 비싼 돈을 주고 다시 렌트한 집에 머물게 되었다.

이런 엄청난 고드름은 처음 보는 것 같다. 참 대단하고 밖에는...

밤새 내린 눈은 베란다에 산을 이루고 있었다.

다행이 아침에 주차장에 서 차를 빼서 나가려고 하는 입구는 제설차가 와서 치워줘서 움직일 수 있었다.

그리고 돌아오는 길은 다시 눈과 아름다운 초록의 자연을 동시에 맛보게 올 수 있었다. 운전중인 차안에 찍은 사진을 올린다. 눈과 초록을 하루에 경험할 수 있는 기회였다.

정말이지 평생의 잊을 수 없는 좋은 경험을 했던 것 같다.
이게 바로 미국인 것 같다. 넓은 땅덩어리를 갖은 곳에서만이 가능한 이런 경험...

'Life' 카테고리의 다른 글

보스턴 MIT 유학시 기숙사 정보 (0)	2011.03.30
보스턴 MIT 유학: 이주전 할일과 미국에 처음에 와서 해야할 일 (0)	2011.03.30
보스턴 유학: 미국운전면허 및 자동차 구매 (0)	2011.03.30
하버드 도서관(Havard library)은 어떻게 생겼을까? (0)	2011.03.26
미국에서 차사서 한국으로 가져갈때 비용 - 차 가져가는 것이 득이될까요? (0)	2011.03.23

Posted by wishart

,

네트워크 효과 (network effect)

The Business of Software & Digital palforms 2011. 3. 23. 06:26

요즘 자주 등장하는 용어중의 하나가 바로 네트웍 효과(network effect)라는 말일 것인데 이 말의 의미를 정확히 이해하면 경영학이나 신문기사 읽는데 많은 도움이 될 것입니다. 네트워크 효과는 network externality 또는demand-side economies of scale 으로 일컫어 지기도 합니다.

'네트워크 효과'란 쉽게 말하면 내가 어떤 상품이나 서비스를 500원에 샀는데 이게 다른 사람들이 내가 가지고 있는 상품 혹은 사용하고 있는 서비스를 사용하므로서 그 상품이나 서비스의 가치가 올라가는 것을 말합니다. 나는 내 상품이나 서비스에 아무것도 하지 않고 이용만 했을 뿐인데 실제 가치가 다른 사람이 사용을 하게 됨으로써 올라간거죠.

예를 들면 핸드폰이나 팩스가 가장 좋은 예가 될 수 있을겁니다. 가량 내가 만약 핸드폰이나 팩스를 샀다고 이 지구상에서 처음으로 각각 1이라는 가격을 주고 샀다고 가정을 해봅시다. 그렇다면 내가 팩스나 전화를 보내거나 받거나 할 수 없으니 이들의 가격은 각각 원래 내가 지불한 가격 1이 될겁니다.

그런데 만약 나를 포함해서 2명이 사용을 한다면 어떻게 될까요? 이들의 가치는 다른사람이 이 물건을 사용하므로써 가치가 가능한 링크의 수 만큼 올라가게 됩니다.

전체 2명이 사용을 한다면 1 + 2 = 3

전체 3명이 사용을 한다면 1 + 2 + 3 = 6

전체 4명이 사용을 한다면 1+ 2 + 3 + 4 = 10

...

전체 n명이 사용을 한다면 1 + 2 + 3 + 4 + ...+ n = n*(n+1)/2

바로 아래에 n명이 사용할때 링크의 갯수를 계산하는 식을 넣었습니다

이게 바로 그 유명한 메칼프 혹은 메카프 (Metcalfe's law) 입니다. 즉, 네트웍효과의 크기는 전체 노드의 제곱에 비례한다. 왜냐면 n*(n+1)/2 은 근사적으로 n^2 과 같기 때문이죠

네트웍 효과는 간접적 네트웍 효과와 직접적 네트웍효과가 있는데 다음과 같이 설명이 됩니다.

1) 직접적 네트워크 효과 (direct network effect) : 전화나 팩스의 예로서 직접적으로 내가 가진 상품이 만들어내는 네트워크 효과입니다. 즉, 동일한 재화나 서비스를 사용하는 소비자 집단의 규모에 의해 증가 또는 감소한 동질 집단의 소비자 효용

2) 간접적 네트워크 효과 (indirect network effect): 게임 콘솔 사용자와 콘솔용 게임 개발자, DVD와 DVD 플레이어, 윈도우와 소프트웨어등이 대표적인 예가 될 수 있습니다. 이것은소비자에게 제공되는 재화나 서비스가 단일 재화나 서비스가 아닌 콘솔과 게임 또는 스마트 폰과 앱처럼 서로 다른 재화나 서비스가 하나의 묶음 형식으로 제공될 때 발생하는 것으로 (Ibid., Shy 2001:45, Varian 2008: 42). 하나의 재화나 서비스에 묶여 있는 이들이 서로 보완재(substitutes) 관계를 구성하기 때문에 한쪽의 성장이 다른 한쪽의 성장에 영향을 주는 네트워크 관계에 의해서 발생하는 긍정적 혹은 부정적 효과를 말한다.

참고로 밴드웨건 효과와 스놉효과라는 말도 있는데 밴드웨건 효과는 남이 사니깐 나도 따라 사는 효과이고 스놉효과는 남이 사니깐 나는 사기 싫어하는 효과를 말합니다.

다음지식에 썼다가 여기에 다시 옮겨봅니다.

'The Business of Software & Digital palforms' 카테고리의 다른 글

스티브 잡스와 빌게이츠의 전략과 최후의 승자는? ...그리고 구글 (0)	2011.04.05
태블릿 시장의 미래? 아이패드, 캘럭시탭... (0)	2011.04.05
페이스북 건물은 어떻게 생겼을까? (0)	2011.03.27
소프트웨어 회사의 재무분석 (0)	2011.03.26
클라우드 컴퓨팅(Cloud Computing)이란 ? (0)	2011.03.12

Posted by wishart

,

통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대)

Data, Modeling, and Decisions 2011. 3. 23. 06:14

어떤 갬블러가 다음과 같은 게임 전략을 세웠다고 합시다. 우리 주변에서도 흔히 볼 수 있는 광경일 수도 있을 것 같긴 합니다.

어떤 도박에서 내가 1달러를 걸고 이기면 1달러를 받고 2달러를 걸고 이기면 2달러를 받는 것입니다.
물론 내가 걸었던 돈과 함께 말이죠. 이때 이길 확률은 공정해서 1/2 이라고 합시다.

한심한 갬블러의 전략은 아주 간단합니다. 처음에 1 달러를 베팅을 하고 그러고 나서 돈을 읽으면 그 다음판에 이 돈에 두배인 2 달러를 다시 베팅을 합니다. 그리고 또 잃으면 다시 다음판에 이것에 두배인 4달러를 베팅을 합니다. 이렇게 하면 언젠가는 돈을 다시 찾아 올 수 있다고 계속 돈을 걸고 도박을 할때 평균적으로 얼마까지 잃으면 마지막에 결국 돈을 회수하게 될까요?

과연 이 전략을 통해서 돈을 회수는 할 수 있을까요? 그리고 현명한 전략이라 할 수 있을까요?

간단히 정리하면 이 갬블러는 언젠가 이겨도 결국 1달러밖에 벌 수 없습니다. 아래는 이 사람이 4번째 베팅에서 이겨서 8 달러를 받았을때 결국 추가로 번돈은 1 달러입니다.

베팅횟수	1	2	3	4	$gain
베팅돈	1	2	4	8
잃은 돈	-1	-2	-4	8	1

그렇다면 이 전략을 통해서 얼마가 있으면 결국 이 한심한 갬블러가 1달러를 벌 수 있을까요? 이것을 통계적으로 어떻게 계산할 수 있을까요?

K번을 게임에서 지고 K+1번째 이 갬블러가 이긴다고 가정합시다.

그리고 이 친구가 게임에서 이기기전 바로 베팅한 돈은 X=2^K 가 됩니다.

그럼 한번 이기기전까지 게임에서 K번 지고 K+1번째 이길 확률은 P(X=2^k) = 1/ 2^(K+1) 이 되겠죠.

따라서

E(X) =sum of n*P(X=n), n=0, 1, 2,...

= sum of 2^K* 1/2^(K+1), K=1, 2, 3, 4, ...

= infinite number

즉, 이 전략은 한심하다고 볼 수 있으며 또한 통계적으로 평균이 존재 안할수도 있다는 것을 배울 수 있습니다. 재미있는 예라서 적어봤습니다.

참고> 다음지식에도 전에 올렸다가 블로그로 옮겨봤습니다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용 (0)	2011.03.26
SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출 (0)	2011.03.25
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0)	2011.03.11
피셔의 정확도 검정(Fisher's Exact Probability Test) (0)	2011.02.25

Posted by wishart

,

지친 일상의 비상구- Chage the rule of the game so that other players don’t know how to play the game!

'2011/03'에 해당되는 글 25건

맥니마 검정(McNemar test, paired test. 혹은대응표본검정 )- 범주형 자료분석

'Data, Modeling, and Decisions' 카테고리의 다른 글

소프트웨어 회사의 재무분석

'The Business of Software & Digital palforms' 카테고리의 다른 글

통계 t-test(T검정법)의 모든 것 (한그룹 single ttest, 쌍별비교 paired T test, 서로 다른 두 그룹 평균비교)-SAS이용

'Data, Modeling, and Decisions' 카테고리의 다른 글

하버드 도서관(Havard library)은 어떻게 생겼을까?

'Life' 카테고리의 다른 글

SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출

'Data, Modeling, and Decisions' 카테고리의 다른 글

이베이 대표( eBay CEO) 존 도나호(John Donahoe)의 강연을 듣다.

'Notetaking' 카테고리의 다른 글

미국에서 차사서 한국으로 가져갈때 비용 - 차 가져가는 것이 득이될까요?

'Life' 카테고리의 다른 글

캘리포니아 타호 호수 (Tahoe Lake)

'Life' 카테고리의 다른 글

네트워크 효과 (network effect)

'The Business of Software & Digital palforms' 카테고리의 다른 글

통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대)

'Data, Modeling, and Decisions' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바