기본 콘텐츠로 건너뛰기

라벨이 임의화 응답인 게시물 표시

차등 정보보호 - 8. 임의화 응답에서 프라이버시 손실 관계식 유도(스피너만 사용)

차등 정보보호 - 8. 임의화 응답에서 프라이버시 손실 관계식 유도(스피너만 사용) 차등 정보보호(Differential Privacy)의 임의화 응답(Randomized Response) 기법에서 사용하는 스피너 모델은 사용자의 실제 답변을 확률적으로 바꾸어 프라이버시를 보호합니다. 스피너의 밝은 면이 차지하는 비율은 프라이버시 보호 수준, 즉 프라이버시 손실(Privacy Loss)과 직접적인 관계를 맺습니다. 스피너 모델의 작동 방식 먼저 스피너 모델이 어떻게 작동하는지 이해해야 합니다. 사용자가 “예” 또는 "아니오"로 답해야 하는 민감한 질문이 있다고 가정해 보겠습니다. 진실 응답 : 사용자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변(‘예’ 또는 ‘아니오’)을 마음속으로 정합니다. 스피너 돌리기 : 스피너가 밝은 면(p의 비율)에 멈추면, 사용자는 자신의 실제 답변을 그대로 말합니다. 스피너가 어두운 면(1-p의 비율)에 멈추면, 사용자는 실제 답변의 반대 값을 말합니다. 정의를 임의화 응답에 적용하기 차등 정보보호의 일반적인 정의를 스피너를 사용하는 임의화 응답 모델에 적용해 보겠습니다. 알고리즘 M : 스피너를 돌려 답변을 결정하는 임의화 응답 절차입니다. 인접 데이터셋 D1,D2 : D1: 개인의 실제 답변이 '예(Yes)'인 경우 D2: 개인의 실제 답변이 '아니오(No)'인 경우 결과 O : 공격자가 관찰하는 것은 응답자가 최종적으로 보고한 답변입니다. 프라이버시가 가장 많이 유출되는 최악의 시나리오인 '예(Yes)'라고 응답한 경우를 가정합니다. 이제 차등 정보보호의 정의에 이 요소들을 대입합니다. P ( 보고된 답변 = ′ 예 ′ ∣ 실제 답변 = ′ 예 ′ ) P ( 보고된 답변 = ′ 예 ′ ∣ 실제 답변 = ′ 아니 오 ′ ) ≤ e ϵ \frac{P\left(보고된\ 답변='...

차등 정보보호 - 7. 임의화 응답에서 프라이버시 손실 관계식 유도(스피너+동전 사용)

차등 정보보호 - 7. 임의화 응답에서 프라이버시 손실 관계식 유도(스피너+동전 사용) 차등 정보보호(Differential Privacy)의 임의화 응답(Randomized Response) 기법에서 사용하는 스피너 모델은 사용자의 실제 답변을 확률적으로 바꾸어 프라이버시를 보호합니다. 스피너의 밝은 면이 차지하는 비율은 프라이버시 보호 수준, 즉 프라이버시 손실(Privacy Loss)과 직접적인 관계를 맺습니다. 스피너 모델의 작동 방식 먼저 스피너 모델이 어떻게 작동하는지 이해해야 합니다. 사용자가 “예” 또는 "아니오"로 답해야 하는 민감한 질문이 있다고 가정해 보겠습니다. 진실 응답 : 사용자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변(‘예’ 또는 ‘아니오’)을 마음속으로 정합니다. 스피너 돌리기 : 스피너가 밝은 면(p의 비율)에 멈추면, 사용자는 자신의 실제 답변을 그대로 말합니다. 스피너가 어두운 면(1-p의 비율)에 멈추면, 사용자는 동전을 던지는 것과 같이 50% 확률로 ‘예’, 50% 확률로 ‘아니오’ 중 하나를 무작위로 선택하여 답합니다. 정의를 임의화 응답에 적용하기 차등 정보보호의 일반적인 정의를 스피너를 사용하는 임의화 응답 모델에 적용해 보겠습니다. 알고리즘 M : 스피너를 돌려 답변을 결정하는 임의화 응답 절차입니다. 인접 데이터셋 D1,D2 : D1: 개인의 실제 답변이 '예(Yes)'인 경우 D2: 개인의 실제 답변이 '아니오(No)'인 경우 결과 O : 공격자가 관찰하는 것은 응답자가 최종적으로 보고한 답변입니다. 프라이버시가 가장 많이 유출되는 최악의 시나리오인 '예(Yes)'라고 응답한 경우를 가정합니다. 이제 차등 정보보호의 정의에 이 요소들을 대입합니다. P ( 보고된 답변 = ′ 예 ′ ∣ 실제 답변 = ′ 예 ′ ) P ( 보고된 답변 = ′ 예 ′ ∣ 실제 답변 ...

차등 정보보호 - 9. 임의화 응답 원본 통계치 추정 공식 🎲(스피너+동전 사용)

임의화 응답은 개인의 민감한 정보에 '노이즈'를 추가하여 프라이버시를 보호하면서도 전체 통계의 유의미성을 확보하는 차등 정보보호 기술입니다. 이 페이지는 다중 선택 응답 환경에서 임의화 응답이 어떻게 동작하는지 시뮬레이션합니다. 각각의 선택 항목에 대하여 독립적으로 임의화 응답을 적용하는 것이므로 단일 선택 문제와 같은 기술을 사용한다고 보시면 됩니다. ​ 작동 원리 ⚙️: 정해진 프라이버시 손실(ε)에 따라 스피너의 밝은 면의 비율(p)을 아래와 같이 정합니다. $p=\frac{\combi{e}^{\varepsilon }-1}{\combi{e}^{\varepsilon }+1}$ p = e ϵ − 1 e ϵ + 1 ​ ​ 1단계 (응답자): 각 응답자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변('예' 또는 '아니오')을 마음속으로 정합니다. 그리고 스피너를 돌립니다. 스피너가 밝은 면에 멈추면, 응답자는 자신의 실제 답변을 그대로 말합니다. 스피너가 어두운 면에 멈추면, 응답자는 동전을 던지는 것과 같이 50% 확률로 '예', 50% 확률로 '아니오' 중 하나를 무작위로 선택하여 답합니다. 2단계 (분석가): 분석가는 보고된 응답들을 수집합니다. 개별 응답은 진실인지 거짓인지 알 수 없지만, 전체 응답으로부터 원본 통계치를 추정할 수 있습니다. 3단계 (추정): 수집된 응답으로부터 원본 응답 비율(π true )을 추정하는 공식은 다음과 같습니다. 여기서 π noisy 는 노이즈가 포함된 응답에서 '예'라고 답한 비율, n은 총 응답자 수, p는 진실 응답 확률입니다. $\pi _{estimated}=\frac{\combi{\pi }_{noisy}-0.5\times \left(1-p\right)}{p}$ π e s t i m a t e d ​ = π n o i s y ​ − 0 . 5 × ( 1 − p ) p ​ ​ 위 공식으로 추정된 비율에 총 응답자 수 n...