차등 정보보호(Differential Privacy)는 데이터셋에 포함된 특정 개인의 정보 유무가 분석 결과에 미치는 영향을 제한하여 개인의 프라이버시를 수학적으로 보장하는 강력한 기술입니다. 이는 질의 결과에 의도적인 '노이즈'를 추가함으로써 달성됩니다. 이때 추가되는 노이즈의 양을 결정하는 핵심 개념이 바로 전역 민감도(Global Sensitivity)입니다. 차등 정보보호와 전역 민감도의 정의 차등 정보보호(ε-Differential Privacy)는 알고리즘 $M$이 비슷한 두 데이터베이스(단 한 명의 개인 정보만 차이 나는)에 대해 거의 동일한 결과를 출력하도록 보장하는 개념입니다. 수학적으로는 다음과 같이 정의됩니다. $$ Pr[M(D) \in S] \le e^\epsilon \cdot Pr[M(D') \in S] $$ 여기서 $D$와 $D'$는 이웃 데이터베이스, $S$는 가능한 출력 결과의 집합, 그리고 ε(엡실론)은 프라이버시 손실(privacy loss)을 나타내는 매개변수입니다. ε 값이 0에 가까울수록 프라이버시 보호 수준이 높아집니다. 전역 민감도($\Delta f$)는 질의 함수 $f$가 이웃 데이터베이스에 적용될 때 나타날 수 있는 결과값의 최대 변화량을 의미합니다. 이는 데이터셋 자체와는 무관하게 오직 질의 함수에 의해서만 결정됩니다. $$ \Delta f = \max_{D, D'} \|f(D) - f(D')\|_1 $$ 전역 민감도는 차등 정보보호를 구현하기 위해 추가해야 할 노이즈의 크기를 결정하는 데 핵심적인 역할을 합니다. 전역 민감도 적용 사례: 질병 보유자 수 계산 특정 질병(예: 당뇨병)을 앓고 있는 환자 수를 계산하는 간단한 시나리오를 통해 전역 민감도를 구체적으로 살펴보겠습니다. 데이터베이스 ($D$): 병원의 환자 기록 목록 질의 함수 ($f$): 데이터베이스에서 '당뇨병' 진단을 받은 환자의 수를 계산하는 함수 (COUNT 질의) 이 질의 함수의 전역...