차등 정보보호(Differential Privacy)에서 'differential’이라는 단어는 '차이(difference)'를 의미하며, 데이터베이스에 특정 개인의 데이터가 포함되거나 포함되지 않았을 때 발생하는 '결과의 차이를 제어’하는 기술의 핵심 개념을 직접적으로 나타냅니다.
이 용어는 2006년 컴퓨터 과학자 신시아 드워크(Cynthia Dwork)가 발표한 논문 "Differential Privacy"에서 처음으로 공식화되었습니다. 이 개념의 핵심은 데이터베이스에 대한 질의(query) 결과가 특정 개인의 데이터 유무에 따라 크게 달라지지 않도록 보장하는 것입니다. 즉, 데이터베이스에서 한 사람의 정보를 추가하거나 제거하더라도 분석 결과에 미치는 영향(차이)이 거의 없도록 만드는 것이 목표입니다.
차등 정보보호 기법으로 처리된 데이터셋을 Differentially Private Data라고 합니다.
개인정보보호에 대한 하나의 수학적 정의인 차등정보보호는 다음과 같은 특징을 가지고 있습니다.
- 개인정보보호 손실에 대한 정량화
- 수학적 증명이 가능한 개인정보보호 수준의 보장
노이즈 추가
특정 집단에 속하는 구성원들의 월 수입액 평균값을 질의했다고 합시다. 특정 개인의 수입액이 너무나 커서 평균값에 미치는 영향이 매우 크다면 다음과 같은 방법으로 가장 큰 수입액이 얼마인지 알아낼 수 있습니다.
- 모든 구성원들의 월 수입액 평균값 질의하여 결과 얻기 => income_avg
- 한 사람을 뺀 나머지 구성원들의 월 수입액 평균값 질의 반복 => income_avg_1, …, k, …, N
- (income_avg_k - income_avg) 값이 가장 큰 경우의 income_avg_k 값이 특정 개인의 수입액
누가 가장 큰 수입을 올리고 있는지 이미 알려져 있다면 위의 결과를 통해 그의 월 수입이 얼마인지 알게 됩니다.
이러한 상황을 방지하기 위한 하나의 방편은 질의 결과를 출력할 때마다 일정 범위 내에서 노이즈를 임의로 추가하여 출력값이 실제 수입액의 차이에서 발생하는 것인지, 아니면 단지 노이즈에 의한 것인지 알 수 없게 만드는 것입니다.
노이즈 추가 기법은 개인의 민감한 정보가 데이터 분석 결과에 미치는 영향을 제한하면서도, 전체적인 데이터의 통계적 유용성은 보존하는 것을 목표로 합니다.
무작위 응답 (Randomized Response)
환자 질병 유무 데이터를 공개할 때 데이터셋에 불확실성을 추가함으로써 개별 환자의 질병 유무를 확정할 수 없도록 만들 수 있습니다.
예를 들어 어떤 병원이 데이터 분석을 목적으로 10,000명 규모의 환자 데이터셋을 만들고 그 중에서 무작위로 약 1,000명을 선택하여 그들의 질병 유무를 반대로 바꾼다고 생각해 봅시다. 이렇게 만들어진 데이터셋과 무작위 선택 방법을 공개하지만 누구의 질병 유무를 바꾸었는지는 공개하지 않습니다. 따라서 공개된 데이터셋을 보게 되더라도 특정 환자의 질병 유무를 100% 수준으로는 확신할 수 없게 됩니다.
Written with StackEdit.