차등 정보보호 - 9. 임의화 응답 원본 통계치 추정 공식 🎲(스피너+동전 사용)

임의화 응답은 개인의 민감한 정보에 '노이즈'를 추가하여 프라이버시를 보호하면서도 전체 통계의 유의미성을 확보하는 차등 정보보호 기술입니다. 이 페이지는 다중 선택 응답 환경에서 임의화 응답이 어떻게 동작하는지 시뮬레이션합니다. 각각의 선택 항목에 대하여 독립적으로 임의화 응답을 적용하는 것이므로 단일 선택 문제와 같은 기술을 사용한다고 보시면 됩니다.

작동 원리 ⚙️:

정해진 프라이버시 손실(ε)에 따라 스피너의 밝은 면의 비율(p)을 아래와 같이 정합니다.

$p=\frac{\combi{e}^{\varepsilon }-1}{\combi{e}^{\varepsilon }+1}$p=eϵ−1eϵ+1

1단계 (응답자): 각 응답자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변('예' 또는 '아니오')을 마음속으로 정합니다. 그리고 스피너를 돌립니다.
- 스피너가 밝은 면에 멈추면, 응답자는 자신의 실제 답변을 그대로 말합니다.
- 스피너가 어두운 면에 멈추면, 응답자는 동전을 던지는 것과 같이 50% 확률로 '예', 50% 확률로 '아니오' 중 하나를 무작위로 선택하여 답합니다.
2단계 (분석가): 분석가는 보고된 응답들을 수집합니다. 개별 응답은 진실인지 거짓인지 알 수 없지만, 전체 응답으로부터 원본 통계치를 추정할 수 있습니다.
3단계 (추정): 수집된 응답으로부터 원본 응답 비율(π_true)을 추정하는 공식은 다음과 같습니다. 여기서 π_noisy는 노이즈가 포함된 응답에서 '예'라고 답한 비율, n은 총 응답자 수, p는 진실 응답 확률입니다.

$\pi _{estimated}=\frac{\combi{\pi }_{noisy}-0.5\times \left(1-p\right)}{p}$πestimated=πnoisy−0.5×(1−p)p

위 공식으로 추정된 비율에 총 응답자 수 n을 곱하면 원본 응답자 수를 추정할 수 있습니다. 응답자 수(n)가 적을 때는 추정 오차가 크지만, n이 커질수록 '추정된 실제 값'이 '실제 값'에 근접하는 것을 확인할 수 있습니다.

임의화 응답 시뮬레이션 결과

천천히, 제대로

이 블로그 검색

차등 정보보호 - 9. 임의화 응답 원본 통계치 추정 공식 🎲(스피너+동전 사용)

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

MATLAB Rutime 설치하기

Wi-Fi 카드 2.4GHz로만 동작시키기