차등 정보보호 - 5. 인접 데이터셋의 두 가지 주요 정의 차등 정보보호에서 인접 데이터셋(Adjacent Datasets)은 단 한 사람의 데이터만 다른 두 개의 데이터셋을 의미합니다. 이 개념은 "어떤 한 개인이 데이터셋에 포함되거나 포함되지 않더라도, 분석 결과가 거의 바뀌지 않아야 한다"는 차등 정보보호의 핵심 아이디어를 수학적으로 정의하는 기준이 됩니다. 인접 데이터셋의 두 가지 주요 정의 인접 데이터셋을 정의하는 방식에는 크게 두 가지가 있으며, 사용 사례에 따라 구분됩니다. 1. 비제한적 인접성 (Unbounded Adjacency) - 추가/삭제 가장 일반적인 정의입니다. 두 데이터셋 D1과 D2는 한 개의 레코드(데이터 행)를 추가하거나 삭제해서 서로를 만들 수 있을 때 '인접’하다고 말합니다. 수학적 표현: ∣D1ΔD2∣=1 여기서 Δ는 대칭차(Symmetric Difference)를 의미합니다. 즉, 한쪽에만 있고 다른 쪽에는 없는 원소의 개수가 1개라는 뜻입니다. 예시: 100명의 환자 데이터가 담긴 데이터셋 D1이 있다고 가정해 봅시다. D2: D1에서 특정 환자 A의 데이터를 삭제한 99명의 데이터셋 D3: D1에 새로운 환자 B의 데이터를 추가한 101명의 데이터셋 이때, (D1, D2)는 인접 데이터셋이고, (D1, D3)도 인접 데이터셋입니다. 이 정의는 데이터셋의 전체 크기가 바뀔 수 있는 전역 민감도(Global Sensitivity) 모델에서 주로 사용 됩니다. 2. 제한적 인접성 (Bounded Adjacency) - 대체 두 데이터셋의 크기(레코드 수)는 동일하지만, 단 하나의 레코드 내용만 다를 때 '인접’하다고 말합니다. 수학적 표현: 데이터셋 D1과 D2는 크기가 같고, 단 하나의 인덱스 i에서만 D1[i] ≠ D2[i]를 만족합니다. 예시: 100명의 설문조사 응답 데이터셋 D1이 있습니다. D2: D1에...