기본 콘텐츠로 건너뛰기

라벨이 질의함수인 게시물 표시

차등 정보보호 - 6. 질의 함수와 전역 민감도

"전역 민감도(Global Sensitivity)는 데이터셋 자체와는 무관하게, 오직 질의(query) 함수에 의해서만 결정된다"는 말의 의미를 차근차근 설명해 드리겠습니다. 1. 간단한 비유로 시작하기 학교 선생님이 학생들의 키를 조사한다고 상상해 봅시다. 선생님은 두 가지 질문(질의)을 할 수 있습니다. 질의 1: "우리 반 학생은 총 몇 명인가요?" (COUNT 질의) 질의 2: "우리 반 학생들의 키(cm)를 모두 더하면 얼마인가요?" (SUM 질의) 이때, '민감도'란 "학생 한 명이 전학을 오거나 갔을 때, 질문의 답이 얼마나 크게 변할 수 있는가?"를 의미합니다. 질의 1 (COUNT)의 경우: 학생 한 명이 추가되거나 빠지면, '총 학생 수'는 언제나 정확히 1만큼 변합니다. 우리 반에 어떤 학생들이 있는지, 그들의 키가 몇인지는 전혀 중요하지 않습니다. 이 질의의 민감도는 항상 1입니다. 질의 2 (SUM)의 경우: 학생 한 명이 추가된다고 상상해 봅시다. 만약 새로 온 학생의 키가 150cm라면 합계는 150만큼 변합니다. 만약 농구 선수처럼 키가 200cm인 학생이 온다면 합계는 200만큼 변합니다. 이 변화량은 '데이터셋에 추가될 수 있는 사람의 키 최댓값'에 따라 달라집니다. 만약 우리가 키의 범위를 0cm ~ 220cm로 제한한다면, 이 질의의 민감도는 최악의 경우(키가 220cm인 학생이 추가되는 경우) 220이 됩니다. 현재 학생들의 키가 몇인지 와는 상관없이, '키의 합계를 구한다'는 질의 자체가 가진 '최대 변동 가능성' 입니다. 이 비유에서 알 수 있듯이, 민감도는 '현재 데이터가 어떤가'가 아니라 '질의 자체가 가진 특성'에 의해 결정됩니다. 2. 전역 민감도의 정의와 핵심 아이디어 이제 조금 더 전문적으로 살펴보겠습니다. 이웃 데이터셋 (Neigh...