기본 콘텐츠로 건너뛰기

차등 정보보호 - 5. 인접 데이터셋의 두 가지 주요 정의

차등 정보보호 - 5. 인접 데이터셋의 두 가지 주요 정의

차등 정보보호에서 인접 데이터셋(Adjacent Datasets)은 단 한 사람의 데이터만 다른 두 개의 데이터셋을 의미합니다. 이 개념은 "어떤 한 개인이 데이터셋에 포함되거나 포함되지 않더라도, 분석 결과가 거의 바뀌지 않아야 한다"는 차등 정보보호의 핵심 아이디어를 수학적으로 정의하는 기준이 됩니다.

인접 데이터셋의 두 가지 주요 정의

인접 데이터셋을 정의하는 방식에는 크게 두 가지가 있으며, 사용 사례에 따라 구분됩니다.

1. 비제한적 인접성 (Unbounded Adjacency) - 추가/삭제

가장 일반적인 정의입니다. 두 데이터셋 D1과 D2는 한 개의 레코드(데이터 행)를 추가하거나 삭제해서 서로를 만들 수 있을 때 '인접’하다고 말합니다.

  • 수학적 표현: ∣D1ΔD2∣=1
    • 여기서 Δ는 대칭차(Symmetric Difference)를 의미합니다. 즉, 한쪽에만 있고 다른 쪽에는 없는 원소의 개수가 1개라는 뜻입니다.
  • 예시: 100명의 환자 데이터가 담긴 데이터셋 D1이 있다고 가정해 봅시다.
    • D2: D1에서 특정 환자 A의 데이터를 삭제한 99명의 데이터셋
    • D3: D1에 새로운 환자 B의 데이터를 추가한 101명의 데이터셋
    • 이때, (D1, D2)는 인접 데이터셋이고, (D1, D3)도 인접 데이터셋입니다.

이 정의는 데이터셋의 전체 크기가 바뀔 수 있는 전역 민감도(Global Sensitivity) 모델에서 주로 사용됩니다.

2. 제한적 인접성 (Bounded Adjacency) - 대체

두 데이터셋의 크기(레코드 수)는 동일하지만, 단 하나의 레코드 내용만 다를 때 '인접’하다고 말합니다.

  • 수학적 표현: 데이터셋 D1과 D2는 크기가 같고, 단 하나의 인덱스 i에서만 D1[i] ≠ D2[i]를 만족합니다.
  • 예시: 100명의 설문조사 응답 데이터셋 D1이 있습니다.
    • D2: D1에서 다른 모든 정보는 동일하지만, 오직 3번 참가자의 응답만 '예’에서 '아니요’로 바꾼 데이터셋
    • 이때, D1과 D2는 인접 데이터셋입니다.

이 정의는 개인의 각 응답을 독립적으로 보호하는 지역 민감도(Local Sensitivity) 모델, 특히 임의화 응답(Randomized Response) 같은 시나리오에 직접적으로 적용됩니다. 스피너 모델의 경우가 바로 여기에 해당합니다.

  • D1: 당신의 실제 답변이 '예’인 상태
  • D2: 당신의 실제 답변이 '아니요’인 상태

이 두 "데이터셋"은 당신이라는 한 사람의 정보만 다르므로, 제한적 인접성의 정의를 만족합니다.

인접 데이터셋이 중요한 이유

인접 데이터셋 개념은 차등 정보보호의 최악의 시나리오(worst-case)를 가정하게 해줍니다.

알고리즘이 인접 데이터셋 D1과 D2에 대해 거의 동일한 확률로 같은 결과를 출력한다면, 즉

P[M(D1)=O]P[M(D2)=O] P[M(D_1)=O] \approx P[M(D_2)=O]

이라면, 공격자는 결과를 보고도 데이터가 D1에서 왔는지 D2에서 왔는지 확신할 수 없습니다.

이는 곧 데이터셋의 유일한 차이점인 한 개인의 정보가 무엇인지 추론할 수 없게 만든다는 의미이며, 이를 통해 개인의 프라이버시가 수학적으로 보장되는 것입니다.

Written with StackEdit.

댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...