임의화 응답은 개인의 민감한 정보에 '노이즈'를 추가하여 프라이버시를 보호하면서도 전체 통계의 유의미성을 확보하는 차등 정보보호 기술입니다. 이 페이지는 민감한 질문(예: "마리화나를 핀 적이 있습니까?")에 대한 응답을 수집할 때 임의화 응답이 어떻게 동작하는지 시뮬레이션합니다.
작동 원리 ⚙️:
정해진 프라이버시 손실(ε)에 따라 스피너의 밝은 면의 비율(p)을 아래와 같이 정합니다.
1단계 (응답자): 각 응답자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변('예' 또는 '아니오')을 마음속으로 정합니다. 그리고 스피너를 돌립니다.
스피너가 밝은 면에 멈추면, 응답자는 자신의 실제 답변을 그대로 말합니다.
스피너가 어두운 면에 멈추면, 응답자는 거짓 답변을 말합니다.
2단계 (분석가): 분석가는 보고된 응답들을 수집합니다. 개별 응답은 진실인지 거짓인지 알 수 없지만, 전체 응답으로부터 원본 통계치를 추정할 수 있습니다.
3단계 (추정): 수집된 응답으로부터 원본 응답 비율(πtrue)을 추정하는 공식은 다음과 같습니다. 여기서 πnoisy는 노이즈가 포함된 응답에서 '예'라고 답한 비율, n은 총 응답자 수, p는 진실 응답 확률입니다.
위 공식으로 추정된 비율에 총 응답자 수 n을 곱하면 원본 응답자 수를 추정할 수 있습니다. 응답자 수(n)가 적을 때는 추정 오차가 크지만, n이 커질수록 '추정된 실제 값'이 '실제 값'에 근접하는 것을 확인할 수 있습니다.
임의화 응답은 개인의 민감한 정보에 '노이즈'를 추가하여 프라이버시를 보호하면서도 전체 통계의 유의미성을 확보하는 차등 정보보호 기술입니다. 이 페이지는 민감한 질문(예: "마리화나를 핀 적이 있습니까?")에 대한 응답을 수집할 때 임의화 응답이 어떻게 동작하는지 시뮬레이션합니다.
작동 원리 ⚙️:
정해진 프라이버시 손실($\epsilon$)에 따라 스피너의 밝은 면의 비율($p$)을 아래와 같이 정합니다.
$$ p = \frac{e^\epsilon}{e^\epsilon + 1} $$
- 1단계 (응답자): 각 응답자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변('예' 또는 '아니오')을 마음속으로 정합니다. 그리고 스피너를 돌립니다.
- 스피너가 밝은 면에 멈추면, 응답자는 자신의 실제 답변을 그대로 말합니다.
- 스피너가 어두운 면에 멈추면, 응답자는 거짓 답변을 말합니다.
- 2단계 (분석가): 분석가는 보고된 응답들을 수집합니다. 개별 응답은 진실인지 거짓인지 알 수 없지만, 전체 응답으로부터 원본 통계치를 추정할 수 있습니다.
- 3단계 (추정): 보고된 '예'의 비율($\pi_{noisy}$)과 진실을 말할 확률($p$) 또는 프라이버시 손실($\epsilon$)값을 이용하여 원래 '예'의 비율($\pi_{true}$)을 다음과 같이 추정합니다.
$$ \pi_{true\_estimated} = \frac{\pi_{noisy}-(1-p)}{2p-1} = \frac{\pi_{noisy}(1+e^\epsilon) - 1}{e^\epsilon - 1} $$
위 공식으로 추정된 비율에 총 응답자 수 n을 곱하면 원본 응답자 수를 추정할 수 있습니다. 응답자 수(n)가 적을 때는 추정 오차가 크지만, n이 커질수록 '추정된 실제 값'이 '실제 값'에 근접하는 것을 확인할 수 있습니다.
댓글
댓글 쓰기