천천히, 제대로

글

라벨이 프라이버시인 게시물 표시

차등 정보보호 - 2. 재식별 위험의 정량적 접근

차등 정보보호 - 2. 재식별 위험의 정량적 접근 재식별 위험, 어떻게 측정할 수 있을까? 데이터가 공개될 때 우리가 느끼는 '왠지 모를 불안감’을 숫자로 측정할 수 있다면 어떨까요? 놀랍게도, 프라이버시 보호 기술은 그 막연한 불안감을 구체적인 '위험도’로 계산하고 관리하는 것을 목표로 합니다. 그 실마리는 ' 한 개인의 정보가 전체 결과에 미치는 영향 ’을 살펴보는 데 있습니다. 데이터베이스에 내 정보가 추가됨으로 인해 통계 결과가 크게 달라진다면, 역으로 그 결과를 통해 나를 특정하기 쉬워진다는 의미입니다. 반대로 내 정보가 추가되어도 결과에 거의 변화가 없다면, 나는 수많은 데이터 속에 안전하게 숨을 수 있습니다. 즉, 재식별 위험을 낮추려면 개인의 정보가 결과에 미치는 영향(차이)을 최소화해야 합니다. 상황 1: N명의 데이터베이스 → 통계 결과 A 상황 2: (N+1)명의 데이터베이스 (내 정보 추가) → 통계 결과 B (A와 차이가 큼) 이러한 결과의 차이를 통제할 수 있다면, 우리는 재식별 위험을 관리할 수 있게 됩니다. 그렇다면 구체적으로 어떻게 그 차이를 줄일 수 있을까요? 해결책: '그럴듯한 부인’을 위한 확률적 장치 "마리화나를 피운 적이 있습니까?"와 같이 매우 민감한 질문에 답변해야 하는 상황을 상상해 봅시다. 모든 사람이 진실만을 답한다면, 특정인의 답변은 곧 그의 민감한 정보가 됩니다. 이때 '차등 정보보호(Differential Privacy)'라는 개념이 해법을 제시합니다. 핵심은 답변에 의도적인 노이즈(noise), 즉 무작위성을 섞는 것입니다. 예를 들어, 응답자에게 다음과 같은 규칙을 따르도록 하는 것입니다. 동전을 던집니다. 앞면이 나오면 무조건 진실을 말합니다. 뒷면이 나오면 다시 동전을 던져서, 그 결과에 따라 “예” 또는 "아니오"로 답합니다. (진실과 무관하게) 이...

자세한 내용 보기

차등 정보보호 - 7. 임의화 응답에서 프라이버시 손실 관계식 유도(스피너+동전 사용)

차등 정보보호 - 7. 임의화 응답에서 프라이버시 손실 관계식 유도(스피너+동전 사용) 차등 정보보호(Differential Privacy)의 임의화 응답(Randomized Response) 기법에서 사용하는 스피너 모델은 사용자의 실제 답변을 확률적으로 바꾸어 프라이버시를 보호합니다. 스피너의 밝은 면이 차지하는 비율은 프라이버시 보호 수준, 즉 프라이버시 손실(Privacy Loss)과 직접적인 관계를 맺습니다. 스피너 모델의 작동 방식 먼저 스피너 모델이 어떻게 작동하는지 이해해야 합니다. 사용자가 “예” 또는 "아니오"로 답해야 하는 민감한 질문이 있다고 가정해 보겠습니다. 진실 응답 : 사용자는 스피너를 돌리기 전에 질문에 대한 자신의 실제 답변(‘예’ 또는 ‘아니오’)을 마음속으로 정합니다. 스피너 돌리기 : 스피너가 밝은 면(p의 비율)에 멈추면, 사용자는 자신의 실제 답변을 그대로 말합니다. 스피너가 어두운 면(1-p의 비율)에 멈추면, 사용자는 동전을 던지는 것과 같이 50% 확률로 ‘예’, 50% 확률로 ‘아니오’ 중 하나를 무작위로 선택하여 답합니다. 정의를 임의화 응답에 적용하기 차등 정보보호의 일반적인 정의를 스피너를 사용하는 임의화 응답 모델에 적용해 보겠습니다. 알고리즘 M : 스피너를 돌려 답변을 결정하는 임의화 응답 절차입니다. 인접 데이터셋 D1,D2 : D1: 개인의 실제 답변이 '예(Yes)'인 경우 D2: 개인의 실제 답변이 '아니오(No)'인 경우 결과 O : 공격자가 관찰하는 것은 응답자가 최종적으로 보고한 답변입니다. 프라이버시가 가장 많이 유출되는 최악의 시나리오인 '예(Yes)'라고 응답한 경우를 가정합니다. 이제 차등 정보보호의 정의에 이 요소들을 대입합니다. P ( 보고된 답변 = ′ 예 ′ ∣ 실제 답변 = ′ 예 ′ ) P ( 보고된 답변 = ′ 예 ′ ∣ 실제 답변 ...

자세한 내용 보기

차등 정보보호 - 1. 재식별 위험: 보이지 않는 위협

데이터의 가치와 공개의 역설 데이터를 완벽하게 보호하는 가장 확실한 방법은 아무에게도 공개하지 않는 것입니다. 하지만 이는 데이터가 가진 무한한 잠재력을 사장시키는 것과 같습니다. 결국 데이터의 가치를 실현하기 위해 '공개'는 피할 수 없는 선택이며, 바로 그 순간 '재식별'이라는 피할 수 없는 위험이 뒤따릅니다. 이름이나 주민등록번호 같은 명백한 식별자를 제거하는 것만으로는 충분하지 않습니다. 언뜻 사소해 보이는 여러 정보가 조각 그림 맞추듯 결합되면, 결국 특정 개인을 가리키는 '재식별'의 화살이 될 수 있기 때문입니다. 이 위험이 얼마나 현실적인지, 구체적인 시나리오를 통해 살펴보겠습니다. 평범한 통계에 숨겨진 위험 어느 작은 마을에 1,000명이 살고 있습니다. 보건 당국이 이 마을의 희귀 질병 유병률을 조사해 '전체 주민의 1%가 환자'라는 통계를 발표했습니다. 1년 후, 10명의 새로운 이주민이 생긴 상태에서 다시 조사하니 유병률은 1.09%로 약간 올랐습니다. 여기까지는 지극히 평범한 공중 보건 데이터처럼 보입니다. 하지만 여기에 '지난 1년간 이사 온 사람은 10명뿐'이라는 인구 이동 데이터가 더해진다면 어떨까요? 순식간에 익명의 통계는 한 개인을 겨냥하는 날카로운 정보가 됩니다. 작년 환자 수: 1,000명 × 1% = 10명 올해 환자 수: (1,000명 + 10명) × 1.09% ≈ 11명 이 간단한 계산은 한 가지 사실을 암시합니다. 새로 늘어난 환자 1명은 새로 이사 온 10명 중 한 명일 가능성이 매우 높다는 것을 말입니다. 이처럼 개인을 직접 식별할 수 있는 정보가 전혀 없어도, 여러 데이터가 결합될 때 어떻게 특정인의 민감한 정보가 노출될 수 있는지를 명확히 보여줍니다. 이것이 바로 '재식별 공격'의 현실입니다. 차등 정보보호 - 1. 재식별 위험: 보이지 않는 위협 데이터를 완벽하게 보호하는 가장 확실...

자세한 내용 보기