기본 콘텐츠로 건너뛰기

차등 정보보호 - 6. 질의 함수와 전역 민감도

"전역 민감도(Global Sensitivity)는 데이터셋 자체와는 무관하게, 오직 질의(query) 함수에 의해서만 결정된다"는 말의 의미를 차근차근 설명해 드리겠습니다.

1. 간단한 비유로 시작하기

학교 선생님이 학생들의 키를 조사한다고 상상해 봅시다. 선생님은 두 가지 질문(질의)을 할 수 있습니다.
  • 질의 1: "우리 반 학생은 총 몇 명인가요?" (COUNT 질의)
  • 질의 2: "우리 반 학생들의 키(cm)를 모두 더하면 얼마인가요?" (SUM 질의)
이때, '민감도'란 "학생 한 명이 전학을 오거나 갔을 때, 질문의 답이 얼마나 크게 변할 수 있는가?"를 의미합니다.
  • 질의 1 (COUNT)의 경우: 학생 한 명이 추가되거나 빠지면, '총 학생 수'는 언제나 정확히 1만큼 변합니다. 우리 반에 어떤 학생들이 있는지, 그들의 키가 몇인지는 전혀 중요하지 않습니다. 이 질의의 민감도는 항상 1입니다.
  • 질의 2 (SUM)의 경우: 학생 한 명이 추가된다고 상상해 봅시다. 만약 새로 온 학생의 키가 150cm라면 합계는 150만큼 변합니다. 만약 농구 선수처럼 키가 200cm인 학생이 온다면 합계는 200만큼 변합니다. 이 변화량은 '데이터셋에 추가될 수 있는 사람의 키 최댓값'에 따라 달라집니다. 만약 우리가 키의 범위를 0cm ~ 220cm로 제한한다면, 이 질의의 민감도는 최악의 경우(키가 220cm인 학생이 추가되는 경우) 220이 됩니다. 현재 학생들의 키가 몇인지 와는 상관없이, '키의 합계를 구한다'는 질의 자체가 가진 '최대 변동 가능성'입니다.
이 비유에서 알 수 있듯이, 민감도는 '현재 데이터가 어떤가'가 아니라 '질의 자체가 가진 특성'에 의해 결정됩니다.

2. 전역 민감도의 정의와 핵심 아이디어

이제 조금 더 전문적으로 살펴보겠습니다.
  • 이웃 데이터셋 (Neighboring Datasets): 단 한 사람의 데이터만 다른 두 개의 데이터셋을 말합니다. (예: D1 = {A, B, C}, D2 = {A, B, D})
  • 질의 함수 (Query Function): 데이터셋을 입력받아 특정 값을 출력하는 함수입니다. (예: COUNT(), SUM(), AVG())
  • 전역 민감도 (Global Sensitivity, GS): 존재할 수 있는 모든 이웃 데이터셋 쌍에 대해 질의를 실행했을 때, 그 결과값 차이의 최댓값입니다.
GS(f) = max || f(D1) - f(D2) ||₁
(여기서 f는 질의 함수, D1과 D2는 모든 가능한 이웃 데이터셋 쌍을 의미합니다.)

핵심은 "max (최댓값)"와 "모든 가능한 (for all possible)" 이라는 부분입니다.

우리는 지금 가지고 있는 특정 데이터셋에서의 변화량을 궁금해하는 것이 아닙니다. 해당 질의 함수가 이 세상에 존재할 수 있는 모든 데이터셋에 적용되었을 때, 단 한 개의 레코드가 추가/삭제됨으로 인해 발생할 수 있는 '최악의 시나리오'에서의 변화량을 측정하는 것입니다.

이 '최악의 시나리오'는 질의 함수 자체의 구조에 의해 결정됩니다.

3. 구체적인 질의 함수 예시

  • COUNT(항목)
    • 질의의 본질: 데이터 레코드의 개수를 센다.
    • 최악의 시나리오: 어떤 데이터셋이든 레코드 하나가 추가/삭제되면 개수는 정확히 1만큼 변한다.
    • 전역 민감도: 1
    • (데이터셋에 무엇이 들어있는지는 전혀 영향을 주지 않습니다.)
  • SUM(나이) (단, 나이는 0세 ~ 120세로 제한)
    • 질의의 본질: '나이'라는 속성 값을 모두 더한다.
    • 최악의 시나리오: 나이가 가장 많은 사람(120세)의 데이터가 추가되거나 삭제될 때, 합계의 변화가 가장 크다.
    • 전역 민감도: 120
    • (현재 데이터셋의 평균 나이가 25세이든 60세이든 상관없습니다. 질의 함수가 허용하는 '나이'의 상한선(120)이 민감도를 결정합니다. 이를 Clipping 이라고도 합니다.)
  • AVG(나이) (나이 범위 0~120세, 총 인원 n명)
    • 질의의 본질: 합계를 개수로 나눈다.
    • 최악의 시나리오: 이 경우는 계산이 조금 더 복잡하지만, 결과적으로 민감도는 데이터의 범위(0~120)와 총 인원수(n)에 의해 결정됩니다. (최댓값 - 최솟값) / n 과 같은 형태로 나타납니다.
    • 전역 민감도: 120 / n
    • (역시 현재 데이터셋에 있는 실제 나이 값들과는 무관합니다.)

4. 왜 이것이 중요한가?

전역 민감도가 데이터셋과 무관하게 '질의 함수'에만 의존한다는 사실은 차등 정보보호를 실용적으로 만드는 핵심 요소입니다.

  1. 사전 분석 가능: 어떤 데이터를 분석할지 정해지면, 실제 데이터를 보지 않고도 "이 질문은 민감도가 얼마이므로, 프라이버시를 보호하려면 이 정도의 노이즈(noise)가 필요하겠다"라고 미리 계산하고 계획할 수 있습니다.
  2. 일관성 및 단순성: 데이터가 매일 업데이트되더라도, 동일한 질문을 하는 한 추가해야 할 노이즈의 양은 변하지 않습니다. 매번 데이터셋을 보고 민감도를 다시 계산할 필요가 없습니다.
  3. 안전성 보장: '최악의 경우'를 가정하기 때문에, 어떤 데이터가 들어오더라도 약속된 수준의 프라이버시(ε, 엡실론)를 항상 보장할 수 있습니다.

결론

다시 한번 요약하자면, 전역 민감도는 우리가 가진 특정 데이터에 대한 분석 결과가 아니라, '이 질문(질의)은 데이터가 한 명 바뀌었을 때 최악의 경우 결과가 얼마나 바뀔 수 있는가?'를 나타내는 질문 자체의 고유한 특성입니다. 마치 자(ruler)의 눈금이 무엇을 측정하는지와 상관없이 항상 일정한 간격을 유지하는 것과 같습니다. 이 특성 덕분에 우리는 데이터와 상관없이 일관된 개인정보보호 장치를 마련할 수 있는 것입니다.

댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...