임의화응답(Randomized Response) 설문조사 - 대답하기 곤난한 설문을 할때 사용하는 방법
Data, Modeling, and Decisions 2011. 4. 10. 10:53이 설문방법은 대답하기 곤란한 설문을 하는 경우 보다 정확한 답을 얻기 위해서 개발된 방법으로 처음에Warner (1965)에 의해서 개발이 되었다. 아마 이것을 접하는 분은 통계의 위대함을 새삼 깨닫게 되는 즐거움을 얻게 될 것 같다. 이 방법은 가령 다음과 같은 설문을 하고자 할 때 아주 유용하다.
1. 당신은 마약을 해본 적이 있습니까?
2. 당신은 혼전에 유산 경험이 있습니까?
3. 당신은 가게에서 물건을 훔친 적이 있습니까?
4. 당신은 당신 부인 몰래 다른 여자와 6개월 내에 자본 적이 있습니까?
이런 질문을 받는 사람들이 정확한 답변을 하지 않을 것이라는 것은 쉽게 예상할 수 있다.
이 문제를 해결하는데 2가지 방법이 있다.
방법 1 : Warner(1965)
Warner (1965)는 2가지 질문: (1) 나는 마약을 해본적이 있다(Qs) (2) 나는 마약을 해본적인 없다(Qc). 이런 질문지를 앞에 둔다. 그리고 주사위를 던져서 1, 2, 3, 4 가 나오면 (1) 질문에 대답을 하고 5, 6이 나오면 (2)번 질문에 답을 한다. 이때 설문조사자는 응답자가 어떤 질문에 어떻게 대답했는지 알 수 없고 단지, Yes 또는 No 의 전체 횟수와 주사위가 전체 분포가 어떻게 나왔는지만을 기록한다. 즉, (1)과 (2) 번 질문이 전체 몇 번 나왔는지. 즉 개개인이 어떤 질문에 대답했는지 알수 없다. 그렇다면 이때 마약을 해본 경험이 있는 사람의 비율을 어떻게 알 수 있을까?
즉 정리하면 이 설문 방법으로 알 수 있는 것은 다음과 같다. 100번의 시행이 있었다면 우리는 주사위가 4/6 가 나올 확률이 66.6%라는것을 알기 때문에 (1)에 대한 응답이 전체에 66.6번이 나오고 (2)에 대한 답이 33 번이라는 것을 알 수 있다. 아래 표에서는 Yes라고 답한 것이 100중 20이라고 가정하였다.
질문\대답 | Yes | No | Total |
(1) 나는 마약을 해본적이 있다 | q | 67 (=p) | |
(2) 나는 마약을 해본적인 없다 | 1-q | 33(=1-p) | |
Total | 20(=# yes) | 80 | 100 |
이런 정보를 기초로 해서 우리는 조건부확률을 활용해서 원래 추정하려고 하는 마약해본 경험이 있는지를 추정한다.
(1) 나는 마약을 해본적이 있다(Qs)에 대해서 ‘예’라고 대답한 확률을 q라고 하면 (2) 나는 마약을 해본적인 없다(Qc)에 대한 질문에 ‘예’라고 대답할 확률은 1-q이다. 그리고 p를 (1) 번 질문에 대답할 확률이라고 하자. 즉, 위의 예에서는 주사위가 1, 2, 3, 4 가 나올 확률 66.6%가 된다.
그렇다면 이때 전체 마약해본 경험이 있어요라고 대답할 확률은 어떻게 될까? 우리가 흔히 고등학교때부터 배운 베이즈 정리로 알려진 조건부 확률을 이용하면 간단히 해결이 된다.
P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*q+(1-p)*(1-q)
따라서, p=[P(yes) – (1-q)] / [2q-1]
즉 p의 추정치는 X(=sum of xi)가 예라고 대답한 전체 사람수라고 하고 n이 전체 샘플수라고 하면 다음과 같다.
Estimates p = [ X/n – (1-q) ] / (2q-1)
그렇다면 여기서 q=1, q=1/2, 또는q=0 이라면 어떤 일이 생길까?
q=1 이라는 의미는 질문지가 모두 (1)이라는 의미이고 q=0이라는 의미는 질문지가 모두 2이고 q=1/2라는 것은 50대 50이라는 의미가 된다.
그런데 여기서 추정치 p의 분산을 계산하면 다음과 같다.
Warner 의 설문조사에서
Variance V(estimation for p) = p*(1-p)/n + q*(1-q)/[n*(2q-1)^2]
방법 2 : 관련없는 질문 (Innoccuous Question method)
Warner(1965)는 두 질문이 완전히 서로 Exclusively 한 질문을 던지지만 이것은 두번째 질문을 다음과 같이 전혀 원래 질문의 의도와 관련이 없는 질문을 던진다. 그렇지만 우리가 충분히 확률적으로 예라고 대답할 확률을 알 수 있도록 설계를 한다.
다음과 같은 두 질문지가 있다.
(1) 나는 마약을 해본적이 있다(Qs)
(2) 동전을 던져라. 앞면인가? 예 또는 아니오
따라서
질문\대답 | Yes | No | Total |
(1) 나는 마약을 해본적이 있다 | r | 67(=p) | |
(2) 던진 동전이 앞면이다. | alpha | 33(=1-p) | |
Total | 20(=# yes) | 80 | 100 |
동전의 앞면이 나올 확률이기 때문에 이미 확률값을 알고 있는 r= P(yes given question 2) 이라고 하면 다음과 같은 식을 얻을 수 있다.
여기서 p는 (1)"나는 마약을 해본적이 있다(Qs)"번에 대해서 답변을 할 확률이고 q는 Waner의 설계처럼 (1)질문에 예스라고 대답할 확률이다. 여기서 우리는 실제 이 값은 알 수 없다. 또한 alpha는 (2)번 질문에 대해서 'Yes'라고 대답할 확률이다. 동전을 던졌으니 여기서는 1/2 이 될 것이다.
그렇다면 확률값은 다음과 같이 계산될 수 있다.
P(yes) = P(yes given question 1 )*P(question 1) + P(yes given question 2)* P(question 2) = p*r+(1-p)*alpha
따라서, p=[P(yes) – (1-r)] / [2r-1]
이때 추정치 p의 분산은
Var(estimator for p) = p(1-p)/n + [(1-q)^2 *r*(1-r)+r*(1-p)]/n*q^2 이 된다.
좀 복잡하지만 알고 나면 간단한 문제이다.
아주 똑똑한 설문 디자인이 아닐 수 없다. 이에 대한 자세한 정보는 위키에도 정리가 잘 되어 있다.
여기서 p가 커지면 분산은 적어지고 alpha가 클때 분산이 작아지는 경향이 있다.
그렇지만 이것이 진리는 아니라는 것을 기억하자.
'Data, Modeling, and Decisions' 카테고리의 다른 글
정규분포 확률값, 누적확률값, Z 를 계산할 수 있는 계산기(normal distribution calculator) (0) | 2011.04.11 |
---|---|
서로 다른 두 모집단의 평균 비교 –검정력(1-beta), 신뢰구간이 주어졌을때 표본크기(샘플사이즈) 결정 (0) | 2011.04.11 |
‘스포츠에서 붉은색 유니폼을 입으면 승리할 확률이 높아진다’ 는 말은 사실일까? - 카이제곱검정 (0) | 2011.04.10 |
상관계수를 그래프를 보고 알 수 있을까? - 데이타 마이닝 (2) | 2011.04.10 |
본페로니 검정법 (Bonfenoni Test)란 무엇인가? (0) | 2011.04.07 |