통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계

Data, Modeling, and Decisions 2011. 3. 21. 09:16

통계학을 배울때 반드시 경험하는 두변수의 독립성과 상관계수와의 관계가 있는데 아주 좋은 예가 있어서 소개를 한다.

1. 두변수가 독립이면 반드시 상관계수는 0 이다.
2. 그렇지만 상관계수가 0이라고 해서 두 변수가 독립은 아니다.
즉, 두 변수가 독립이 아니더라도 상관계수는 0이 될 수 있다.

이것은 반드시 기억을 해둬야 한다.
그리고 이런 것에 대한 좋은 예가 있어서 소개를 한다.
물론 쉽게는 서로 0을 기준으로 대칭(symmetric)이면서 경향을 보이는 변수는 상관계수는 0이지만 독립이 아니다.
가령 y= x^2 이 좋은 예일 것이다.

아래 이산형도 같은 아이디어에서 출발하여 만들었다.

위의 예에서 보듯이 상관계수는 0 이지만 독립은 아니다. 위에 설명과 다르게 설명한다면 다음과 같다.
두변수가 독립이라면 P(x=1,y=1) = P(x=1)* P(y=1)이 성립해야 하는데
P(x=1,y=1)= 1/3 이지만 P(x=1)* P(y=1)=(1/3)*(1/3 + 1/3)=2/9 이기 때문이다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

SAS를 활용한 샘플링(sampling) - 비복원추출, 복원추출 그리고 층화추출 (0)	2011.03.25
통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0)	2011.03.11
피셔의 정확도 검정(Fisher's Exact Probability Test) (0)	2011.02.25
범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까 (1)	2011.02.17

Posted by wishart

,

파이낸스 CAPM 모델: 위험과 기대수익율- 접점포트폴리오(tangent portfolio), 포지션

Finance Management 2011. 3. 21. 08:54

파이낸스에서 포트폴리오를 배우면 반드시 나오는 위험(Risk) 과 기대수익(expected return)율 그래프가 있는데 이이것을 제대로 설명한 경우는 드물어서 한번에 다 볼 수 있는 것을 올려봅니다.

1. 기대수익율과 표준편차(리스크)와의 그래프 기본설명

2. 기대수익율과 리스크 그래프에서 각각의 포지션별 설명

이것만 잘 이해하시면 일단 포트폴리오에 대한 50% 학습은 이미 한 것이나 다름이 없죠.

'Finance Management' 카테고리의 다른 글

콜옵션(Call option)과 풋옵션(Put option) 이란?- 페이오프(pay-off) 그래프(diagram) (0)	2011.03.28
파이낸스- 모기지 론(morgage loan) 계산하는 법 (0)	2011.03.27
옵션가치 산정- 블랙슐즈 포뮬러(Black-Scholes formula) (0)	2011.03.21

Posted by wishart

,

클라우드 컴퓨팅(Cloud Computing)이란 ?

The Business of Software & Digital palforms 2011. 3. 12. 16:17

요즘들어 소프트웨어 세계에서 가장 많이 이야기하는 것이 바로 클라우드 컴퓨팅이다.

그렇다면 클라우드 컴퓨팅이란 무엇일까? 내 개인적으로 생각으로는 소프트웨어를 서비스 개념으로 생각하는 SAAS(software as a service)를 마케팅 용어로 멋지게 클라우드 컴퓨팅이란 말로 포장해서 부르는 말이 아닐까 생각한다. 왜냐면 클라우드 컴퓨팅의 범주를 아래 비디오에서 보듯 상당히 광법위하게 정의하기 때문이다.

사실 소프트웨어의 비지니스 모델의 발전사를 간단히 본다면 예전에 소프트웨어를 만들때는 공장에서 제품을 생산해서 팔던 때와 마찬가지로 한번 팔때 제품 단가를 무지 비싸게 팔고 팔고나면 수익이 더이상 내기 어렵기 때문에 업그레이드라는 말로 수십개의 버전을 만들어 다시 팔았던 상품으로서의 소프트웨에( software as a product) 세상이 있었다. 이시대는 개발방법론은 Water Fall 을 사용했고 1년에 한번씩 새로운 버젼을 생산했다. 대표적인 예가 윈도우나 마이크로 오피스가 될 것이다.

그러다가 더 이상 소프트웨어를 상품으로 보지 않게 되었다. 비지니스 모델이 소프트웨어를 한번 팔면 그만이 아닌것이 아니라임대의 개념으로 보고 임대하는 동안 운영비와 교육비용등을 챙기는 것으로바뀌게 된 것인다. 요즘 거의 모든 소프트웨어의 판매방식이 이렇게 바뀌었다. 제너럴 일렉트로닉스 (GE)가 더이상 자기네들은 Manufacturer가 아니라 서비스 사업자라고 말하는 것처럼 소프트웨어 세상도 더이상 상품을 판매하는 것이 아니라 서비스를 제공하는 사업자 개념이 바뀌게 된 것이다.

이런 추세가 가속화 되고 있는 중에 인터넷이 보급되고 일반화되면서 이제는 더이상 수십개의 버전을 갖는 소프트웨어를 만들지 않아도 되는 세상이 되었다.. 업데이트도 한번에 그리고 일일이 내 컴퓨터에 인스톨하지 않아도 웹에서 접속만하면 소프트웨어를 원격으로 컨트롤이 가능하게 되었다. 엄청난 데이타구축 비용을 지불하지 않아도 되고 내가 사용한 만큼 비용을 지불하면 되는 세상이 열린 것이다. 이것을 우리는 클라우드 컴퓨팅 시대라고 한다. 클라우드 컴퓨팅의 장점으로는 다음을 들 수 있다. 첫번째 하나의 머신에서 여러 유저가 동시에 작업을 할 수 있도록 하는 멀티임대 기술 ( Multi Tenancy Tecnology)이다. 이것은 자원을 공유함으로서 불필요한 낭비를 줄일 수 있는 장점이 있다. 두번째로는 복잡한 하드웨어설치나, 소프트웨어 라이센스 계약, 전기 비용, 렉스페이스등의 공간이 필요없기 때문에 소비자 입장에서 정보기술 고급 인력을 채용하지 않아도 되므로 비용절약을 할 수 있다. 세번째로는 소비자 입장에서 항상 최신 버젼의 소프트웨어를 사용할 수 있다는 장점이 있다. 왜냐면 업그레이드를 서버사이드에서만 해주면 모든 고객이 똑같은 버젼의 소프트웨어를 사용할 수 있기 때문이다.

그리고 클라우드 컴퓨팅 비지니스 분야를 크게 3가지로 나눠볼 수 있다.

1. 인프라스트럭쳐

컨셉 : Rent hardware “boxes” so you don’t have to buy/maintain it yourself!

CPU, Disk, Network, OS

Big Players

Amazon EC2/S3 = agnostic hardware

Microsoft is for Win technologies

Windows Server Hyper V, Azr. Connect

EMC Atmos: storage-centric

2. 플랫폼

컨셉: Develop and deploy you software onto a pre-existing platform!

Abstraction from any hardware

Like app hosting but w/ EOS

Players

Google App Engine: Python

Heroku: Ruby on Rails

Salesforce: Apex

Windows: Compute, AppFabric, Storage

Amazon: Snapshots

3. 어플리케이션

컨셉: Enterprise and consumer applications that people “use” directly via browser!

Examples:

Enterprise: Salesforce.com, successfactors, HubSpot

Consumer: Google (?), Netflix, Dropbox

Business Analytics: Vertica, GoodData

Infrastructure: loggly, Okta, ???

Microsoft: CRM Dynamics, Office 365,

Exchange Online

아래 클라우드 컴퓨팅의 개념적인 설명을 잘 한 비디오가 있어서 링크를 건다.

아래 비디오 클립은 오라클 창업자이면서 CEO인 래리 엘리슨(Larry Ellison)의 클라우딩 컴퓨팅에 대한 생각을 읽을 수 있는 아주 잼있는 동영상이다. ㅎㅎㅎ

개인적으로는 아래 비디오 클립이 가장 맘에 든다. 왜냐면 이게 더 직관적이다. 그러나 좀 길어서 지루하지만 말이다.

참고자료

1.클라우드 컴퓨팅에 대해서 아주 잘 정리한 비지니스 위크(business week) 커버스토리

http://www.businessweek.com/magazine/content/11_11/b4219052599182_page_7.htm

2. 서비스로서의 소프트웨어를 딜리버링하는 세계

Delivering software as a service

A new delivery method is shaking the software industry’s foundations. Traditional vendors should take heed

http://www.mckinseyquarterly.com/Delivering_software_as_a_service_2006

'The Business of Software & Digital palforms' 카테고리의 다른 글

스티브 잡스와 빌게이츠의 전략과 최후의 승자는? ...그리고 구글 (0)	2011.04.05
태블릿 시장의 미래? 아이패드, 캘럭시탭... (0)	2011.04.05
페이스북 건물은 어떻게 생겼을까? (0)	2011.03.27
소프트웨어 회사의 재무분석 (0)	2011.03.26
네트워크 효과 (network effect) (0)	2011.03.23

Posted by wishart

,

SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means

Data, Modeling, and Decisions 2011. 3. 11. 03:52

비모수 통계학(nonparametric statistics)을 배우다 보면 번역을 한다면 순열을 이용한 평균비교(Permutation test for Means ) 라는 테스트가 있다. 이것은 사실 맨위트니 Rank Sum (순위합) 검정과 결국은 같은 테스트인데 이것을 SAS를 통해서 구현을 해보았다.
초기 데이타는 Mathematical Statistics and Data Analysis p464에 문제 29번을 대상으로 풀었다.

아래와 같이 두가지 방법에 따른 온도를 측정후에 전체 데이타에 순위를 아래와 같이 줬다.이때 집단 A, B의 각각 순위합을 비교하는 것이 맨위트니 검정법(Mann-Whitney test)이다.
퍼뮤테이이션 검정법은 아래 B집단의 데이타가 전체 21개중에 8개이다. 이것을 21개중 8개를 무작위로 뽑아 A, B 그룹의 평균 순위합의 차이를 계산한다. 즉 전체 뽑을 수 있는 가능한 수 21C8 개가 되는데 이때 가능한 수만큼 뽑아서 뽑힌 8개의 평균순위합과 나머지 13개의 평균 순위합의 차이를 그래프로 그린다.
그렇게 하면 처음에 아래 표에서 얻은 두 집단간의 순위합 평균이 어디에 떨어지는지 알 수 있다. 즉 이것을 바탕으로 P_value를 계산할 수 있다. 이것이 바로 퍼뮤테이션 테스트인데 여기서는 1000개만뽑았다. 왜냐면 실제 21C8은 근사적으로 200,000 정도에 육박하는데 1000개 정도만으로 충분히 가능하기 때문이다.

A	7.5	19	11.5	19	15.5	15.5	19	4.5	21	15.5	11.5	9	11.5
B	11.5	1	7.5	4.5	4.5	15.5	2	4.5

Diff= Mean of group A - Mean of group B = 13.8 - 6.37 =7.43
아래 그래프에서 7.43은 전체 1천개중에서 997번째 큰 값으로 이보다 큰 값이 겨우 3개정도 존재한다. 따라서
따라서 p_value = 3/1000 =0.003 으로 귀무가설을 기각한다.

아래 히스토그램은 1000개를 뽑아서 그룹간의 평균차를 계산하여 그린 히스토그램이다.
이것을 보면 어디에 위치하는지 알 수 있다.

SAS 프로그램

data kkk1;/* 초기 데이타 입력 */
input method $ value @@;
cards;

A 7.5 A 19 A 11.5 A 19 A 15.5 A 15.5 A 19 A 4.5 A 21 A 15.5 A 11.5 A 9 A 11.5 B 11.5 B 1 B 7.5 B 4.5 B 4.5 B 15.5 B 2 B 4.5 ;run;

%macro bootst;/*매크로 bootst를 생성하는 과정이다*/

%do k=1 %to 1000;/*k변수에 대해서 1부터 1000까지 반복하라는 명령어이다 */

data sample;

set kkk1;

rand= ranuni(&k)*21;/* 0 에서 1 까지 uniform 난수를 발생시킨다음 21를 곱하면 0에서 21까지의 난수가 된다 */

run;

proc rank data=sample out=ppp ;/* 생성된 난수에 순위를 준다 */

var rand;

ranks rank;run;/* 순위는 데이타셋 ppp에 rank라는 변수명으로 하라는 의미이다 */

data ppp;

set ppp;

if rank<= 8 then group='A';else group='B';run;

proc sql ;

create table aaa as

select a.group, avg(a.value) as barX from ppp a group by a.group;

quit;

/* 트랜스포즈 명령어는 아주 유용하다. 데이타값이 실제로 group이라는 변수에 A, B가 들어 있는데 이 두그룹간의 차이를 구하려면 이들이 변수명으로 바꿔야 하는데 이때 이것을 쓰면 아주 유용하다. 여기서 그룹명을 변수로 바꾸고 이때 값을 barX로 하라는 것이 이 문장이다*/

proc transpose data= aaa out=mmm;
var barX;ID group;run;

data ddd;

set ddd mmm; /* 여기서 초기 데이타 ddd는 미리 만들었다. 물론 프로그램에서는 표현을 하지 않았고. 그런다음 위에서 생성된 mmm데이타셋을 계속 머지해가는 것이다. 결국 1000번을 돌면 1001개의 데이타 라인이 생기게 된다.ddd에 말이다. */

run;

%end ;/*Do문을 여기서 멈추라는 명령어이다 */

%mend bootst ;/* 매크로를 닫아주는 명령어*/

%bootst ;/* 매크로를 실행하라는 명령어인데 결국 1000개번의 과정을 반복할 것이다. */

data ddd;

set ddd;

diff=A-B;

run;

proc univariate data=ddd;

var diff;

histogram diff /kernel;run;/* 히스토그램을 그리기 위해서 이 명령어를 사용하였다*/

참고로 만약 t검정 혹은 비모수 검정(윌콕슨 부호순위검정)을 하고 싶다면 SAS에서 다음과 같은 명령어를 사용하면 된다.

PROC NPAR1WAY data=kkk1;class method;var value;run;

proc ttest data=kkk1 ;class method;var value;run;

'Data, Modeling, and Decisions' 카테고리의 다른 글

통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21
피셔의 정확도 검정(Fisher's Exact Probability Test) (0)	2011.02.25
범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까 (1)	2011.02.17
카이제곱 검정(Chi-Square Test) (0)	2011.02.16

Posted by wishart

,

피셔의 정확도 검정(Fisher's Exact Probability Test)

Data, Modeling, and Decisions 2011. 2. 25. 09:15

통계학에서 피셔의 업적으로 이야기하자면 진화론의 다윈과 같은 존재이다. 이는 범주형 자료분석(categorical analysis)의 지평을 여는데 큰 공헌을 한 사람인데 우리가 범주형 자료분석 책을 열면 항상 제일 처음에 나오는 예가 바로 피셔의 정확도 검정(Fisher's Exact Probability Test) 이다.

그러나 문제는 이것을 제대로 이해를 못하고 넘어가는 경우가 종종있다. 그래서 이 부분을 최대한 아는 범위에서 정리를 하고자 한다.

어떤 감별사가 차(tea)를 먼저 넣고 우유(milk)를 넣은 차와 우유를 먼저 넣고 차를 다음에 넣은 차를 구분할 수 있다고 한다. 그리고 이 감별사는 테스트에서 다음과 같은 결과를 얻었다.

		what pour first?
		tea first	milk first	합계
감별사	tea	5	0	5
감별사	milk	1	4	5
	합계	6	4	10

이때 감별사가 정말 어떤 것이 먼저 들어간 차인지를 알아낼 수 있는 감별력이 있는지 없는지 어떻게 통계적으로 말할 수 있을까? 피셔는 이것을 초기하 분포라고 생각해서 해결할 것을 제안하였다.

위의 문제는우리가 흔히 접하는 확률문제와 똑같다고 본 것이다. 주머니속에 빨간구슬 6개(위의 문제에서 tea를 먼저 넣은 경우)와 파란 구슬 4개(위의 문제에서 milk를 먼저 넣은 경우)가 들어 있을때 5개를 무작위로 반복없이 뽑을때 빨간 구슬이 5개 파란구슬이 0이 나올 확률이 얼마인가? 라는 문제 말이다.

즉 , 피셔는 감별사가 차를 먼저 넣은 경우가 몇건인지(5건)과 우유를 먼저 넣은 경우의 차가 몇 건인지(5건)을 이런 marginal . 그리고 감별사가 그럼 위와 같이 나올 확률값을 계산할 수 있다. 이것은 초기하분포(hypergeometric distribution)으로 전체 10건 ( = 6+4) 중에 5 건을 뽑는데 차를 먼저 넣은 것으로 감별을 할 경우가 5건 그렇지 않은 경우(우유를 먼저 넣은 경우)는 0일 확률값을 계산할 수 있다.

6C5 * 4C0	=	0.0338
10C5

여기서 각셀값이 전체 5를 넘어갈 수 없기 때문에 이 값은 결국 p-value값이 된다. 유의 수준 5%에서 ”Ha: 감별사의 감별력있다”라는 대립가설을 채택한다.

각 셀의 빈도에 따른 확률값을 계산해보면 다음과 같다.

4	3
2	3	p= 0.0238

3	2
3	2	p= 0.4762

2	3
4	1	p= 0.2381

1	4
5	6	p= 0.0238

이것을 일반화 하다면 다음과 같이 할 수 있다.

	B1	B2	Totals
A1	a	b	a+b
A2	c	d	c+d
Totals	a+c	b+d	n

A와 B 변수 사이에 아무런 관련이 없는 독립이라고 귀무가설하에 a, b, c, d는 각 셀의 빈도수이고 a+b, c+d는 주어진 값이라고 하자. 우리는 이것을hypergeometric 분포로 이렇게 나올 확률값을 다음과 같이 계산할수 있다.

*{(a+c)에서 a개를 뽑을 확률 } {(b+d)에서 b개를 뽑을 확률}**		*(a+c)! (b+d)!**
	=	*a! c!c! d!**
n개에서 (a+b)개를 뽑을 확률		n!
		*( a+ b)! (c+ d)!**

피셔의 정확검정은 통계적으로 범주형 자료분석의 지평을 열었다는데 상당한 의미가 있다. 따라서 제대로 이해하는 것은 아주 중요할 듯 하다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0)	2011.03.11
범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까 (1)	2011.02.17
카이제곱 검정(Chi-Square Test) (0)	2011.02.16

Posted by wishart

,

범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까

Data, Modeling, and Decisions 2011. 2. 17. 12:14

의학통계에서 가장 많이 사용하는 통계분석방법론은 법주형자료(categorical data)일 것이다.

이 부분을 공부하면서 가장 처음 만나게 되는 것이 오즈(odds), 오즈비(odds ratio), 상대위험도(relative risk(chance))와 같은 용어이다. 그런데 이런 용어들은 자주 나오지만 왜 이런 개념이 나오게 되었고 왜 사용하는지 정확히 알고 있는 사람은 별로 없다.

이것을 설명하기 위해서 다음과 같은 예를 들어보자. 가령 당신은 오늘의 운을 테스트 하기 위해서 Bassassinator를 사용한 경우와 어떤 미끼도 사용하지 않을 경우에 대해서 각각 100번씩 시도를 하여 낚은 물고기를 횟수를 다음과 같이 기록하였다. 즉 여기서는 당신이 몇번 던졌는지 정확히 알 수 있고 이것은 통계적으로 모집단의 수와 일치한다.

	# of times caught	# of times not caught	Total # of casts
Bassassinator	50	50	100
No bait	2	98	100

1. 오즈(odds)

당신이 물고기를 잡을 확률(P) / 물고기를 한 마리도 잡지 못할 확률 (1-P) 으로 물고기를 잡을 확률이 물고기 잡지 못할 확률에 몇 배가 되는 가의 값이 된다. 아래 결과에서 보듯이 Bassassinator을 사용했을때 물고기를 잡을 확률은 잡지 못할 확률에 1배이므로 같다고 할수 있다. 그렇지만 No bait를 한 경우는 물고기를 잡을 확률이 훨씬 작아진다.

Bassaddinator 오즈 (odds) = a/b=50/50 = 1

No bait의 오즈 (odds)= c/d=2/98 = 0.0204

2. 오즈비(odds ratio)

오즈비는 위에서 구한 오즈의 비율이다. 아래에서 보듯이 당신이 Bassassinator를 사용한 경우 물고기를 잡을 확률비는 no bait를 사용한 경우의 물고기를 잡을 확률비 대비 50배가 높다고 할 수 있다.

Bassassinator vs. no bait 의 오즈비 =1.0/0.02 = 50.

3. 상대위험도(relative risk(chance))

당신이 Bassassinator를 사용하고 물고기를 잡을 확률 = a/(a+b)= 50/100 = 0.50

당신이 no bait의 경우 물고기를 잡을 확률 = c/(c+d)= 2/100 = 0.02

상대 위험도 ( relative risk ) =

Bassassinator를 사용하고 물고기를 잡을 확률 /no bait의 경우 물고기를 잡을 확률 = 0.5/0.02 = 25

위에서 보듯 누구에게나 직관적이고 쉬운 개념은 상대위험도이다. 위의 경우 해석을 한다면 당신이 Bassassinator을 사용한 경우에 물고기를 잡을 확률이 25배가 높다고 할 수 있다. 너무나 간단하게 해석이 된다. 그렇다면 왜 오즈비를 사용하는 것일까?

여기서 이런 의문이 생길 수 밖에 없다. 이 답은 다음과 같다.

거의 모든 연구는 실제로 처리(treatment)그룹과 대조(control)그룹의 모집단수를 알 수 없다. 왜냐하면 연구자가 할 수 있는 것은 샘플수를 조정할 수 있을 뿐이다. 가령 위의 예를 다음과 같이 바꿔보자.

아래의 표는 물고기를 잡은 100명의 낚시꾼을 조사한 결과 이들중 40명이 Bassassinator를 사용하였다. 그리고 100명의 물고기를 한마리도 잡지 못한 낚시꾼을 조사한 결과 단지 이들중 20명이 Bassassinator를 사용한 것으로 조사되었다. 즉 전체 물고기를 잡은 사람수를 구할 수 있는 방법은 없다. 즉, 연구자는 각각의 모집단의 수를 알 수 없다.

	Bassassinator use	No Bassassinator	Total #
Caught fish	40	60	100
Caught nothing	20	80	100

그래서 이때 모집단을 알 수 없기 때문에 대신 오즈비를 사용하게 된다.

오즈 (Bassassinator를 사용하고 물고기를 잡을 확률/ 잡지 못할 확률) = 40/60 = 0.67

오즈 (No Bassassinator 경우 물고기를 잡을 확률/ 잡지 못할 확률) = 20/80 = 0.25

따라서,

성공적(물고기를 낚은)인 낚시꾼이 Bassassinator 를 사용하는 비율과 실패한(물고기를 낚지 못한 ) 낚시꾼의

오즈비(Odds ratio) = 0.67/0.25 = 2.7

이것은 물고기를 잡은 낚시꾼들은 물고기를 낚지 못한 낚시꾼들에 대비해서 Bassassinator를 2.7배 더 사용하는 경향이 있다라고 해석을 해야한다.

흔히 범하는 실수는 Bassassinator를 사용하는 낚시꾼들은 물고기를 낚을 확률이 2배가 높다라고 해석하는 경우가 있는데 이것은 잘 못된 해석이다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0)	2011.03.11
피셔의 정확도 검정(Fisher's Exact Probability Test) (0)	2011.02.25
카이제곱 검정(Chi-Square Test) (0)	2011.02.16

Posted by wishart

,

카이제곱 검정(Chi-Square Test)

Data, Modeling, and Decisions 2011. 2. 16. 02:32

카이제곱 검정은 카테고리 변수간 차이 혹은 관계를 분석하기 위해서 사용하는 아주 유용한 통계적인 검정법이다. 이것은 직관적으로 카테고리 변수라는 말에서 알 수 있듯이 지역과 정치적 선호도, 성별과 상중하 성적레벨, 혹은 음식종류와 비만등과 같은 카테고리 변수를 연구를 하고자 할 때 카이제곱 검정은 매우 유용하다.

카이제곱 검정은 크게 다음과 같은 두가지의 다른 상황에서 사용을 할 수 있는 상당히 유용한 검정법이다.

1. 적합도 검정 (goodness-of-fit test): 관측된 데이타가 예측한 분포를 따르는지 검정하는 방법이다. 예를 들자면 카지노에 룰렛이 공정하게 만들어졌는가 테트스를 할 수 있다. 만약 룰렛이 잘 만들어 졌다면 수백번 돌려서 각각의 숫자에 같은 확률로 떨어져야 하는데 실제 우리가 돌려 테스를 한다고 할때 반드시 같은 확률로 떨어지진 않는다. 그렇다면 어떻게 이것이 제대로 만들어졌는지 테스트 할 수 있을까? 바로 이것을 검정하는 것이 적합도 카이스퀘어 검정법이다.

예제> 아래의 표는 주사위를 60번 던져서 각각 나온 관측값과 실제 잘 만들어졌다면 각각 1/6 로 나와야 하므로 기대값은 이때 각각의 셀에 10이 된다.

그렇다면 이 주사위는 제대로 만들어진 것인가?

주사위 눈의 수	관측횟수(Oi)	기대횟수(Ei)
1	16	10
2	5	10
3	9	10
4	7	10
5	6	10
6	17	10
Total	60	60

이것을 테스트 하는 방법은

= 13.6

으로 자유도 5 ( 전체카테고리 수에서 1을 뺀 값)를 갖는 카이제곱 분포를 따른다.

이것의 p-value 는 1.8%이다. 즉, 이 주사위는 공정하게 만들어졌다고 볼 수 없다는 결론을 얻는다.

2. 독립성검정 (Testing Independence) : 두개의 확률변수(random variables)이 서로 독립인지를 검정하는 방법이다. 예를 들면 흡연과 폐암, 교육수준과 수입, 나이와 정당선호도와 같은 인과관계 혹은 관련 변수들이 서로 독립인지테스트 하는 방법이다. 여기서 독립이라는 의미는 인과관계 혹은 연관이 없다는 말이 될 수 있다.

예제> 일반적으로 학교에서 남자들이 더 많이 문제를 일으킨다는 인식이 있는데 정말 그런지 독립성 테스를 해보자.

	Got in Trouble	No Trouble	Total
Boys	46 (40.97)	71 (76.02)	117
Girls	37 (42.03)	83(77.97)	120
Total	83	154	237

자유도 3을 갖는 카이스퀘어 통계량

이것은 p-value는p< 20% 이므로 남학생이 여자보다 학교에서 더 문제를 많이 일으킨다고 볼 수 없다.

여기서 주의할 것은 카이제곱검정은 독립성만 테스트 하는 것이지 남학생이 여자보다 더 문제를 일으킨다는 것을 테스트하는 것은 아니다. 관련이 없는지 있는지만을 테스트한다고 생각하면 된다. 남학생이 여자보다 더 문제일으키는지에 대한 테스트는 odds ratio를 이용해야한다. 이 독립성 테스트에서 독립이 아니라는 결론을 얻고 난 후에 말이다.

'Data, Modeling, and Decisions' 카테고리의 다른 글

통계 피터스버그 역설 (Petersburg Paradox) - 한심한 갬블러(기대값이 무한대) (0)	2011.03.23
통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계 (3)	2011.03.21
SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means (0)	2011.03.11
피셔의 정확도 검정(Fisher's Exact Probability Test) (0)	2011.02.25
범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까 (1)	2011.02.17

Posted by wishart

,

재무분석의 기초 : Ratios

Finance Accounting 2011. 2. 13. 01:02

회계학을 배우고 나서 재무분석을 하려할때 입문으로 꼭 알아야 할 다양한 Ratio가 있습니다.

이것을 모르고 들어가면 수업이고 뭐고 외계어를 배우는 느낌을 들것입니다.

그래서 한 번 정리를 해뒀습니다.

1. Profitability Ratio

Gross Profit Margin = Gross Profit/Net Sales
Operating Profit Margin = EBIT/Net Sales
Net Profit Margin = Net Income/Net Sales
Cash Flow Margin = Cash flow from operating cash flows/Net sales
Return on Assets = Net Income/Total Assets = Profit Margin * Asset turnover
Return on Equity Net = (Net Income/Sales)*(Sales/Assets)*(Assets/Sharehoelers's Equity) = Profit Margin * Asset Tunover* Financial Leverage = Income/Stockholder's Equity

2. Operating Ratio

Collection Period (Days Receivable) = (365*Account Receivable)/Sales = 365 / AR Turnover : Credit 판매후에 실제 현금이 들어오는데까지 걸린 평균 날짜수
Payables Period (Days Payable) = (365*Account Payable)/Purchase = 365 / AP Turnover : Credit 구매후에 실제 현금으로 값을때까지 걸리는 평균 날짜수
Days of Inventory (Days Inventory) = (365*Inventory)/COGS : 물건이 팔리기전 얼마나 인벤토리로 보관되는지에 대한 일수를 계산한 값이다. 재고상태로 남아 있는 기간이라고 생각하면 된다.
Asset Turnover = Revenue/Total Asset : 높을 Profit margin을 갖는 회사는 이 값이 적고 반대로 낮은 Profit Margin을 갖는 회사는 이 값이 크다. 성장하는 회사가 판매(Sales)에 비례하여 수익(Revenue)이 성장하는지 보기위한 유용한 지표라 할 수 있다.
Inventory Turnover = Cost of goods sold / Ending Inventory : 만약에 이 값이 4.4 라고 하면 1년동안 인벤토리 전체가 4.4번 바뀌었다는 말이 된다. 그리고 평균 인벤토리가 제고로 창고에 남아 있는 기간은 83일(365/4.4) 일이라는 말이 된다. 이게 머리로 완벽히 이해가 안될 수 있는데 안되면 그냥 외우고 다른 지표들도 그냥 외워라. 그럼 어카운팅에 약간 친숙해지려고 하면 이해가 된다.

3. Leverage Raio

Debt-to-Asset Ratio = Total Liabilities/Total Assets : 이 값이 만약 79%라고 하면 이 것은 이 회사의 에셋을 지불한 돈의 79%가 은행이나 다른 Crditor들에게 나왔다는 의미가 된다.
Debt-to-Equities Ratio= Total Liabilities/Shareholder's Equity
Interest Coverage = EBIT/Interest Expenses <= 얼마나 이자를 값을 수 있는지에 대한 지표

4. Liquidity Ratio

Current Ratio = Current Asset/Current Liability : 1년내에 현금으로 전환될수 있는 자산을 1년내에 갚아야 할 총부채로 나눈 비이다. 이것을 보면 이 회사의 현금가용능력을 볼 수 있는 좋은 지표가 된다.
Acid Test = (Current Asset - Inventory)/ Current Liability : Current Ration보다 좀 더 보수적인 지표라고 생각하면 된다. 자산에서 인벤토리를 뺀 것이니.
Cash Ratio = (Cash + Short-Term or Marketable Securities) / (Current Liabilities)
Quick Ratio = (Cash + Accounts Receivable + Short-Term or Marketable Securities) / (Current Liabilities)
참고로 Working Capital = Current Asset - Current Liability

5. Cash Cycle = Days Inventory + Days Receivable - Days Payable

현금이 들어올때까지 걸리는 기간이라고 생각하면 되다. 재무분석에서 가장 중요한 것은 현금흐름이다. 왜냐면 현금 흐름이 안된다는 이야기는 회사가 망한다는 말이 되므로. 우리가 돈을 은행에서 빌려 투자하고 이것으로 물건을 만들어 팔았는데 돈이 안들어온다고 하면 이 회사는 망하는 것이 당연하니깐 이부분은 엄청나게 중요하니 신경을 써서 공부를 해야하는 부분이다.

6. 예제 : Wilson Lumber Company

85년 이후는 예측을 한 것입니다. 자료 첨부합니다.

2-Wilson_Lumber_Tables_5_(Days_Payable_equal_to_46).xlsx

Posted by wishart

,

Why do Good Firms get Blindsided?

카테고리 없음 2010. 12. 27. 05:12

왜 훌륭한 회사들은 새로운 기회를 발견하고 투자하지 못할까요?
그 이유는 바로 여기에 있습니다.

1) Don’t see the threat

– Focus on Job No. 1

– R&D tied to production

– Road-map driven R&D

2) Don’t understand it

– Doesn’t fit the “model”

– Blinded by Past Success

3) Don’t act effectively

– Too small to register

– Fail to invest optimally

– Don’t have competencies

그래서 많은 회사들은 오픈 이노베이션을 통한 혁신을 시도하기도 하고
벤쳐 캐피털을 만들어 새로운 기술에 레이더망을 세우고 투자해서
부를 늘려가기도 하지요.

삼성이나 엘지도 이제는 과거의 성공에서 벗어나 혁신에 혁신을 거듭해야
할 겁니다.

Posted by wishart

,

Managing Project Portfolios

카테고리 없음 2010. 12. 27. 04:50

Your Project Portfolio is the Main Vehicle for Executing your Business Strategy.

Your Business Strategy and Your Project Portfolio Should Be Mirror Images.

The Reality for Most Organizations

• R&D resources often over-committed by 200%-300%

• Project mix does fit the strategic imperatives of the company

– Often biased in favor of derivative/short-term projects (clearer

• ROI/NPV) at expense of long-term capability building projects

• Senior management only selects among Proposed projects

– Has no vehicle to exert influence over WHAT is proposed

• Firms lack explicit Structure + Process for managing portfolio

– Project selection is ad hoc and often reactive and political

– Process does not reflect the reality of capacity constraints

– Little explicit link of portfolio “design” to business strategy

Four Steps to Portfolio Success
Step 1: Strategy and Resource Allocation

– Commitment to $R&D (as % of sales)

SteStep 2: Identifying Different Project Types

– Important dimensions, both internally and externally

– E.g., breakthrough, platform, derivative

*Defining Platforms

• “Next generation” product or service: a significant improvement in performance, cost, or other attributes

– Platforms represent a new “system solution” for a customer

– Often based on new technology or systems configuration

• Establishes a design architecture that can be efficiently leveraged across subsequent derivations, enhancements

– Creates a new product or service family

• Platforms are defined by certain core design elements that stay constant over time, while peripheral elements change

Step 3: Allocate Resources by Project Type

– Driven by industry environment and company strategy

Step 4: Select Projects to be Funded

– Compare within project types

– Actively shape portfolio

• Compare project proposals within categories

– Platform ideas compete with other platforms

– Derivative ideas compete with other derivatives

• Use different criteria across categories

– Derivative: ROI or NPV, feature enhancement

– Platform: Fundamental performance, basis for line

– Breakthrough: long term capabilities/new options

• Management’s job is to actively manage process

– Shape menu of choices, not just passive selection

– Send “back to the drawing board” if no good options

Example of Le Petit Chef

You should think about failure.
Solution: “Option-based” Portfolio Design

Posted by wishart

,

지친 일상의 비상구- Chage the rule of the game so that other players don’t know how to play the game!

'Life & Study'에 해당되는 글 60건

통계적으로 두 변수의 독립(independence)과 상관계수(correlation)와의 관계

'Data, Modeling, and Decisions' 카테고리의 다른 글

파이낸스 CAPM 모델: 위험과 기대수익율- 접점포트폴리오(tangent portfolio), 포지션

'Finance Management' 카테고리의 다른 글

클라우드 컴퓨팅(Cloud Computing)이란 ?

Delivering software as a service

A new delivery method is shaking the software industry’s foundations. Traditional vendors should take heed

'The Business of Software & Digital palforms' 카테고리의 다른 글

SAS/SQL/Macro/DO을 이용한 두집단 평균비교 Permutation test for Means

'Data, Modeling, and Decisions' 카테고리의 다른 글

피셔의 정확도 검정(Fisher's Exact Probability Test)

'Data, Modeling, and Decisions' 카테고리의 다른 글

범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까

'Data, Modeling, and Decisions' 카테고리의 다른 글

카이제곱 검정(Chi-Square Test)

'Data, Modeling, and Decisions' 카테고리의 다른 글

재무분석의 기초 : Ratios

Why do Good Firms get Blindsided?

Managing Project Portfolios

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바