기본 콘텐츠로 건너뛰기

라벨이 무작위인 게시물 표시

차등 정보보호 - 2. 재식별 위험의 정량적 접근

차등 정보보호 - 2. 재식별 위험의 정량적 접근 재식별 위험, 어떻게 측정할 수 있을까? 데이터가 공개될 때 우리가 느끼는 '왠지 모를 불안감’을 숫자로 측정할 수 있다면 어떨까요? 놀랍게도, 프라이버시 보호 기술은 그 막연한 불안감을 구체적인 '위험도’로 계산하고 관리하는 것을 목표로 합니다. 그 실마리는 ' 한 개인의 정보가 전체 결과에 미치는 영향 ’을 살펴보는 데 있습니다. 데이터베이스에 내 정보가 추가됨으로 인해 통계 결과가 크게 달라진다면, 역으로 그 결과를 통해 나를 특정하기 쉬워진다는 의미입니다. 반대로 내 정보가 추가되어도 결과에 거의 변화가 없다면, 나는 수많은 데이터 속에 안전하게 숨을 수 있습니다. 즉, 재식별 위험을 낮추려면 개인의 정보가 결과에 미치는 영향(차이)을 최소화해야 합니다. 상황 1: N명의 데이터베이스 → 통계 결과 A 상황 2: (N+1)명의 데이터베이스 (내 정보 추가) → 통계 결과 B (A와 차이가 큼) 이러한 결과의 차이를 통제할 수 있다면, 우리는 재식별 위험을 관리할 수 있게 됩니다. 그렇다면 구체적으로 어떻게 그 차이를 줄일 수 있을까요? 해결책: '그럴듯한 부인’을 위한 확률적 장치 "마리화나를 피운 적이 있습니까?"와 같이 매우 민감한 질문에 답변해야 하는 상황을 상상해 봅시다. 모든 사람이 진실만을 답한다면, 특정인의 답변은 곧 그의 민감한 정보가 됩니다. 이때 '차등 정보보호(Differential Privacy)'라는 개념이 해법을 제시합니다. 핵심은 답변에 의도적인 노이즈(noise), 즉 무작위성을 섞는 것입니다. 예를 들어, 응답자에게 다음과 같은 규칙을 따르도록 하는 것입니다. 동전을 던집니다. 앞면이 나오면 무조건 진실을 말합니다. 뒷면이 나오면 다시 동전을 던져서, 그 결과에 따라 “예” 또는 "아니오"로 답합니다. (진실과 무관하게) 이...