통계학에서 피셔의 업적으로 이야기하자면 진화론의 다윈과 같은 존재이다. 이는 범주형 자료분석(categorical analysis) 지평을 여는데 공헌을 사람인데 우리가 범주형 자료분석 책을 열면 항상 제일 처음에 나오는 예가 바로 피셔의 정확도 검정(Fisher's Exact Probability Test) 이다.

그러나 문제는 이것을 제대로 이해를 못하고 넘어가는 경우가 종종있다. 그래서 부분을 최대한 아는 범위에서 정리를 하고자 한다.

어떤 감별사가 (tea) 먼저 넣고 우유(milk) 넣은 차와 우유를 먼저 넣고 차를  다음에 넣은 차를 구분할 있다고 한다. 그리고 감별사는 테스트에서 다음과 같은 결과를 얻었다.

what pour first?

 

tea first

milk first

합계

감별사

tea

5

0

5

milk

1

4

5

합계

6

4

10

 이때 감별사가 정말 어떤 것이 먼저 들어간 차인지를 알아낼 있는 감별력이 있는지 없는지 어떻게 통계적으로 말할 있을까? 피셔는 이것을 초기하 분포라고 생각해서 해결할  것을 제안하였다.

위의 문제는우리가 흔히 접하는 확률문제와 똑같다고 것이다. 주머니속에 빨간구슬 6(위의 문제에서 tea 먼저 넣은 경우) 파란 구슬 4(위의 문제에서 milk 먼저 넣은 경우) 들어 있을때 5개를 무작위로 반복없이 뽑을때 빨간 구슬이 5 파란구슬이 0 나올 확률이 얼마인가? 라는 문제 말이다.

, 피셔는 감별사가 차를 먼저 넣은 경우가 몇건인지(5) 우유를 먼저 넣은 경우의 차가  건인지(5) 이런 marginal .  그리고 감별사가 그럼 위와 같이 나올 확률값을 계산할 있다. 이것은 초기하분포(hypergeometric distribution)으로 전체 10 ( = 6+4) 중에 5 건을 뽑는데  차를 먼저 넣은 것으로 감별을 경우가 5 그렇지 않은 경우(우유를 먼저 넣은 경우) 0 확률값을 계산할 있다.

6C5 * 4C0

=

0.0338

10C5

여기서 각셀값이 전체 5 넘어갈 없기 때문에 값은 결국 p-value값이 된다.  유의 수준 5%에서 ”Ha:  감별사의 감별력있다라는 대립가설을 채택한다.

셀의 빈도에 따른 확률값을 계산해보면 다음과 같다.

4

3

 

2

3

p=  0.0238

 

 

 

3

2

 

3

2

p= 0.4762

 

 

 

2

3

 

4

1

p= 0.2381

 

 

 

1

4

 

5

6

p= 0.0238

이것을 일반화 하다면 다음과 같이 있다.

B1

B2

Totals

A1

a

b

a+b

A2

c

d

c+d

Totals

 a+c 

 b+d 

n



A
B 변수 사이에 아무런 관련이 없는 독립이라고 귀무가설하에 a, b, c, d 셀의 빈도수이고 a+b, c+d 주어진 값이라고 하자. 우리는 이것을hypergeometric 분포로 이렇게 나올 확률값을 다음과 같이 계산할수 있다


{(a+c)에서 a개를 뽑을 확률 }* {(b+d)에서 b개를 뽑을 확률}   (a+c)! *(b+d)!
= a! c!*c! d!
n개에서 (a+b)개를 뽑을 확률 n!
  ( a+ b)! *(c+ d)!

피셔의 정확검정은 통계적으로 범주형 자료분석의 지평을 열었다는데 상당한 의미가 있다. 따라서 제대로 이해하는 것은 아주 중요할 듯 하다.

Posted by wishart
,

의학통계에서 가장 많이 사용하는 통계분석방법론은 법주형자료(categorical data)일 것이다.

이 부분을 공부하면서 가장 처음 만나게 되는 것이 오즈(odds), 오즈비(odds ratio), 상대위험도(relative risk(chance))와 같은 용어이다.  그런데 이런 용어들은 자주 나오지만 왜 이런 개념이 나오게 되었고 왜 사용하는지 정확히 알고 있는 사람은 별로 없다.

이것을 설명하기 위해서 다음과 같은 예를 들어보자. 가령 당신은 오늘의 운을 테스트 하기 위해서 Bassassinator를 사용한 경우와 어떤 미끼도 사용하지 않을 경우에 대해서 각각 100번씩 시도를 하여 낚은 물고기를 횟수를 다음과 같이 기록하였다. 즉 여기서는 당신이 몇번 던졌는지 정확히 알 수 있고 이것은 통계적으로  모집단의 수와 일치한다.

  # of times caught # of times not caught Total # of casts
Bassassinator 50 50 100
No bait 2 98 100

1. 오즈(odds)

  당신이 물고기를 잡을 확률(P) / 물고기를 한 마리도 잡지 못할 확률 (1-P) 으로 물고기를 잡을 확률이 물고기 잡지 못할 확률에 몇 배가 되는 가의 값이 된다. 아래 결과에서 보듯이 Bassassinator을 사용했을때 물고기를 잡을 확률은 잡지 못할 확률에 1배이므로 같다고 할수 있다. 그렇지만 No bait를 한 경우는  물고기를 잡을 확률이 훨씬 작아진다.

   Bassaddinator 오즈 (odds) = a/b=50/50 = 1

   No bait의 오즈 (odds)= c/d=2/98 = 0.0204

2. 오즈비(odds ratio)

오즈비는 위에서 구한 오즈의 비율이다. 아래에서 보듯이 당신이 Bassassinator를 사용한 경우 물고기를 잡을 확률비는 no bait를 사용한 경우의 물고기를 잡을 확률비 대비 50배가 높다고 할 수 있다.

   Bassassinator vs. no bait 의 오즈비 =1.0/0.02 = 50.

3. 상대위험도(relative risk(chance))

 당신이 Bassassinator를 사용하고 물고기를 잡을 확률 = a/(a+b)= 50/100 = 0.50

 당신이  no bait의 경우  물고기를 잡을 확률 = c/(c+d)= 2/100 = 0.02

상대 위험도 ( relative risk ) =

 Bassassinator를 사용하고 물고기를 잡을 확률 /no bait의 경우  물고기를 잡을 확률  =  0.5/0.02 = 25

위에서 보듯 누구에게나 직관적이고 쉬운 개념은 상대위험도이다. 위의 경우 해석을 한다면 당신이 Bassassinator을 사용한 경우에 물고기를 잡을 확률이 25배가 높다고 할 수 있다. 너무나 간단하게 해석이 된다. 그렇다면 왜 오즈비를 사용하는 것일까?

여기서 이런 의문이 생길 수 밖에 없다.  이 답은 다음과 같다.

거의 모든 연구는 실제로 처리(treatment)그룹과 대조(control)그룹의 모집단수를 알 수  없다. 왜냐하면 연구자가 할 수 있는 것은 샘플수를 조정할 수 있을 뿐이다. 가령 위의 예를 다음과 같이 바꿔보자.

아래의 표는 물고기를 잡은 100명의 낚시꾼을 조사한 결과 이들중 40명이 Bassassinator를 사용하였다. 그리고 100명의 물고기를 한마리도 잡지 못한 낚시꾼을 조사한 결과 단지 이들중 20명이 Bassassinator를 사용한 것으로 조사되었다. 즉 전체 물고기를 잡은 사람수를 구할 수 있는 방법은 없다.  즉, 연구자는 각각의 모집단의 수를 알 수 없다.

  Bassassinator use No Bassassinator Total # 
Caught fish 40 60 100
Caught nothing 20 80 100

그래서 이때 모집단을 알 수 없기 때문에 대신 오즈비를 사용하게 된다.

오즈 (Bassassinator를 사용하고 물고기를 잡을 확률/ 잡지 못할 확률) =  40/60 = 0.67

오즈 (No Bassassinator 경우  물고기를 잡을 확률/ 잡지 못할 확률) =  20/80 = 0.25

 따라서,

성공적(물고기를 낚은)인 낚시꾼이 Bassassinator 를 사용하는 비율과 실패한(물고기를 낚지 못한 ) 낚시꾼의

오즈비(Odds ratio) =  0.67/0.25 = 2.7

이것은 물고기를 잡은 낚시꾼들은 물고기를 낚지 못한 낚시꾼들에 대비해서 Bassassinator를 2.7배 더 사용하는 경향이 있다라고 해석을 해야한다.

 흔히 범하는 실수는 Bassassinator를 사용하는 낚시꾼들은 물고기를 낚을 확률이 2배가 높다라고 해석하는 경우가 있는데 이것은 잘 못된 해석이다.


Posted by wishart
,

카이제곱 검정은 카테고리 변수간 차이 혹은 관계를 분석하기 위해서 사용하는 아주 유용한 통계적인 검정법이다. 이것은 직관적으로 카테고리 변수라는 말에서 있듯이 지역과 정치적 선호도, 성별과 상중하 성적레벨, 혹은 음식종류와 비만등과 같은 카테고리 변수를 연구를 하고자 카이제곱 검정은 매우 유용하다.

카이제곱 검정은 크게 다음과 같은 두가지의 다른 상황에서 사용을 있는 상당히 유용한 검정법이다.

1.    적합도 검정 (goodness-of-fit test): 관측된 데이타가 예측한 분포를 따르는지 검정하는 방법이다.  예를 들자면 카지노에 룰렛이 공정하게 만들어졌는가 테트스를 있다. 만약 룰렛이 만들어 졌다면 수백번 돌려서 각각의 숫자에 같은 확률로 떨어져야 하는데  실제 우리가 돌려 테스를 한다고 할때 반드시 같은 확률로 떨어지진 않는다. 그렇다면 어떻게 이것이 제대로 만들어졌는지 테스트 있을까? 바로 이것을 검정하는 것이 적합도 카이스퀘어 검정법이다.

예제> 아래의 표는 주사위를 60 던져서 각각 나온 관측값과 실제 만들어졌다면 각각 1/6 나와야 하므로 기대값은 이때 각각의 셀에 10 된다.

그렇다면 주사위는 제대로 만들어진 것인가?

주사위 눈의 수

관측횟수(Oi)

기대횟수(Ei)

1

16

10

2

5

10

3

9

10

4

7

10

5

6

10

6

17

10

Total

60

60

 

이것을 테스트 하는 방법은

  

                                  = 13.6

으로  자유도 5 ( 전체카테고리 수에서 1 ) 갖는 카이제곱 분포를 따른다.

이것의 p-value 1.8%이다. , 주사위는 공정하게 만들어졌다고 없다는 결론을 얻는다.

2.    독립성검정 (Testing Independence) : 두개의 확률변수(random variables) 서로 독립인지를 검정하는 방법이다. 예를 들면 흡연과 폐암, 교육수준과 수입,  나이와 정당선호도와 같은 인과관계 혹은 관련 변수들이 서로 독립인지테스트 하는 방법이다. 여기서 독립이라는 의미는 인과관계 혹은 연관이 없다는 말이 있다.

예제> 일반적으로 학교에서 남자들이 많이 문제를 일으킨다는 인식이 있는데 정말 그런지 독립성 테스를 해보자.

 

Got in Trouble

No Trouble

Total

Boys

46 (40.97)

71 (76.02)

117

Girls

37 (42.03)

83(77.97)

120

Total

83

154

237

 

자유도 3 갖는 카이스퀘어 통계량

 

 

이것은 p-valuep< 20% 이므로 남학생이 여자보다 학교에서 문제를 많이 일으킨다고 없다.

여기서 주의할 것은 카이제곱검정은 독립성만 테스트 하는 것이지 남학생이 여자보다 문제를 일으킨다는 것을 테스트하는 것은 아니다. 관련이 없는지 있는지만을 테스트한다고 생각하면 된다. 남학생이 여자보다 문제일으키는지에 대한 테스트는 odds ratio 이용해야한다. 독립성 테스트에서 독립이 아니라는 결론을 얻고 후에 말이다.

 


Posted by wishart
,

회계학을 배우고 나서 재무분석을 하려할때 입문으로 꼭 알아야 할 다양한 Ratio가 있습니다.

이것을 모르고 들어가면 수업이고 뭐고 외계어를 배우는 느낌을 들것입니다.

그래서 한 번 정리를 해뒀습니다.

 

 1. Profitability Ratio

  1. Gross Profit Margin = Gross Profit/Net Sales
  2. Operating Profit Margin = EBIT/Net Sales
  3. Net Profit Margin = Net Income/Net Sales
  4. Cash Flow Margin = Cash flow from operating cash flows/Net sales
  5. Return on Assets = Net Income/Total Assets = Profit Margin * Asset turnover
  6. Return on Equity Net = (Net Income/Sales)*(Sales/Assets)*(Assets/Sharehoelers's Equity) = Profit Margin * Asset Tunover* Financial Leverage = Income/Stockholder's Equity


2. Operating Ratio

  1. Collection Period (Days Receivable) = (365*Account Receivable)/Sales = 365 / AR Turnover  : Credit 판매후에 실제 현금이 들어오는데까지 걸린 평균 날짜수
  2. Payables Period (Days Payable) = (365*Account Payable)/Purchase = 365 / AP Turnover : Credit 구매후에 실제 현금으로 값을때까지 걸리는 평균 날짜수
  3. Days of Inventory (Days Inventory) = (365*Inventory)/COGS : 물건이 팔리기전 얼마나 인벤토리로 보관되는지에 대한 일수를 계산한 값이다. 재고상태로 남아 있는 기간이라고 생각하면 된다.
  4. Asset Turnover = Revenue/Total Asset : 높을 Profit margin을 갖는 회사는 이 값이 적고 반대로 낮은 Profit Margin을 갖는 회사는 이 값이 크다성장하는 회사가 판매(Sales)에 비례하여 수익(Revenue)이 성장하는지 보기위한 유용한 지표라 할 수 있다.
  5. Inventory Turnover = Cost of goods sold / Ending Inventory : 만약에 이 값이 4.4 라고 하면 1년동안 인벤토리 전체가 4.4번 바뀌었다는 말이 된다. 그리고 평균 인벤토리가 제고로 창고에 남아 있는 기간은 83(365/4.4) 일이라는 말이 된다. 이게 머리로 완벽히 이해가 안될 수 있는데 안되면 그냥 외우고 다른 지표들도 그냥 외워라. 그럼 어카운팅에 약간 친숙해지려고 하면 이해가 된다

3. Leverage Raio

  1. Debt-to-Asset Ratio = Total Liabilities/Total Assets : 이 값이 만약 79%라고 하면 이 것은 이 회사의 에셋을 지불한 돈의 79%가 은행이나 다른 Crditor들에게 나왔다는 의미가 된다.
  2. Debt-to-Equities Ratio= Total Liabilities/Shareholder's Equity
  3. Interest Coverage = EBIT/Interest Expenses <= 얼마나 이자를 값을 수 있는지에 대한 지표


4. Liquidity Ratio

  1. Current Ratio = Current Asset/Current Liability : 1년내에 현금으로 전환될수 있는 자산을 1년내에 갚아야 할 총부채로 나눈 비이다. 이것을 보면 이 회사의 현금가용능력을 볼 수 있는 좋은 지표가 된다
  2. Acid Test = (Current Asset - Inventory)/ Current Liability : Current Ration보다 좀 더 보수적인 지표라고 생각하면 된다. 자산에서 인벤토리를 뺀 것이니.
  3. Cash Ratio = (Cash + Short-Term or Marketable Securities) / (Current Liabilities)
  4. Quick Ratio = (Cash + Accounts Receivable + Short-Term or Marketable Securities) / (Current Liabilities)
  5. 참고로 Working Capital = Current Asset - Current Liability


5. Cash Cycle = Days Inventory + Days Receivable - Days Payable

  1. 현금이 들어올때까지 걸리는 기간이라고 생각하면 되다. 재무분석에서 가장 중요한 것은 현금흐름이다. 왜냐면 현금 흐름이 안된다는 이야기는 회사가 망한다는 말이 되므로. 우리가 돈을 은행에서 빌려 투자하고 이것으로 물건을 만들어 팔았는데 돈이 안들어온다고 하면 이 회사는 망하는 것이 당연하니깐 이부분은 엄청나게 중요하니 신경을 써서 공부를 해야하는 부분이다.

6. 예제 : Wilson Lumber Company

 

85년 이후는 예측을 한 것입니다. 자료 첨부합니다.

 

Posted by wishart
,