기본 콘텐츠로 건너뛰기

라벨이 전역민감도인 게시물 표시

차등 정보보호 - 6. 질의 함수와 전역 민감도

"전역 민감도(Global Sensitivity)는 데이터셋 자체와는 무관하게, 오직 질의(query) 함수에 의해서만 결정된다"는 말의 의미를 차근차근 설명해 드리겠습니다. 1. 간단한 비유로 시작하기 학교 선생님이 학생들의 키를 조사한다고 상상해 봅시다. 선생님은 두 가지 질문(질의)을 할 수 있습니다. 질의 1: "우리 반 학생은 총 몇 명인가요?" (COUNT 질의) 질의 2: "우리 반 학생들의 키(cm)를 모두 더하면 얼마인가요?" (SUM 질의) 이때, '민감도'란 "학생 한 명이 전학을 오거나 갔을 때, 질문의 답이 얼마나 크게 변할 수 있는가?"를 의미합니다. 질의 1 (COUNT)의 경우: 학생 한 명이 추가되거나 빠지면, '총 학생 수'는 언제나 정확히 1만큼 변합니다. 우리 반에 어떤 학생들이 있는지, 그들의 키가 몇인지는 전혀 중요하지 않습니다. 이 질의의 민감도는 항상 1입니다. 질의 2 (SUM)의 경우: 학생 한 명이 추가된다고 상상해 봅시다. 만약 새로 온 학생의 키가 150cm라면 합계는 150만큼 변합니다. 만약 농구 선수처럼 키가 200cm인 학생이 온다면 합계는 200만큼 변합니다. 이 변화량은 '데이터셋에 추가될 수 있는 사람의 키 최댓값'에 따라 달라집니다. 만약 우리가 키의 범위를 0cm ~ 220cm로 제한한다면, 이 질의의 민감도는 최악의 경우(키가 220cm인 학생이 추가되는 경우) 220이 됩니다. 현재 학생들의 키가 몇인지 와는 상관없이, '키의 합계를 구한다'는 질의 자체가 가진 '최대 변동 가능성' 입니다. 이 비유에서 알 수 있듯이, 민감도는 '현재 데이터가 어떤가'가 아니라 '질의 자체가 가진 특성'에 의해 결정됩니다. 2. 전역 민감도의 정의와 핵심 아이디어 이제 조금 더 전문적으로 살펴보겠습니다. 이웃 데이터셋 (Neigh...

차등 정보보호 - 4. 데이터 처리 방식 및 구현 모델에 따른 분류

데이터 처리 방식에 따른 분류 데이터에 직접 적용되어 프라이버시를 보장하는 핵심 알고리즘들입니다. 노이즈 추가 차등 정보보호에서 가장 보편적으로 사용되는 기법입니다. 핵심 원리는 데이터베이스에 대한 통계적 질의(Query)의 결과값 에 수학적으로 생성된 '노이즈(noise)'라고 불리는 무작위 숫자 를 더하여, 개별 데이터의 기여도를 모호하게 만드는 것입니다. 작동 원리 쿼리 실행 : 데이터 분석가가 데이터베이스에 쿼리(예: "30대 사용자들의 평균 소득은 얼마인가?")를 실행하면, 시스템은 먼저 실제 결과값을 계산합니다. 민감도(Sensitivity) 계산 : 쿼리 결과가 데이터베이스 내의 단 한 사람의 데이터 변화에 의해 얼마나 크게 변할 수 있는지를 측정합니다. 예를 들어, 한 사람의 데이터를 추가하거나 제거했을 때 평균 소득의 최댓값 변화가 '민감도'가 됩니다. 민감도가 높을수록 더 많은 노이즈가 필요합니다. 노이즈 생성 및 추가 : 계산된 민감도와 목표 프라이버시 수준(엡실론, ε)에 따라 노이즈의 크기가 결정됩니다. 이 노이즈를 실제 쿼리 결과에 더하여 최종 결과를 만듭니다. 대표적인 노이즈 메커니즘 라플라스 메커니즘 (Laplace Mechanism) : 평균, 합계, 개수 등 수치형 결과 를 반환하는 쿼리에 주로 사용됩니다. 민감도에 비례하는 라플라스 분포에서 추출된 노이즈를 추가합니다. 가우시안 메커니즘 (Gaussian Mechanism) : 라플라스 메커니즘과 유사하지만, 정규분포(가우시안 분포)에서 노이즈를 추출합니다. 여러 쿼리를 조합하거나 머신러닝 모델의 학습 파라미터를 보호하는 등 더 복잡한 분석에 적합합니다. 결론적으로, 노이즈 추가 기법은 분석 결과에 약간의 불확실성을 주입하여 "이 결과가 특정 개인의 정보 때문에 이렇게 나온 것"이라고 확신할 수 없게 만듦으로써 개인의 프라이버시를 보호합니다. 무작위 응답 주로 설문조사와 같이 사용자로부터 직접 데이터를 수집하는 ...