기본 콘텐츠로 건너뛰기

차등 정보보호 - 4. 데이터 처리 방식 및 구현 모델에 따른 분류

데이터 처리 방식에 따른 분류

데이터에 직접 적용되어 프라이버시를 보장하는 핵심 알고리즘들입니다.

노이즈 추가

차등 정보보호에서 가장 보편적으로 사용되는 기법입니다. 핵심 원리는 데이터베이스에 대한 통계적 질의(Query)의 결과값에 수학적으로 생성된 '노이즈(noise)'라고 불리는 무작위 숫자를 더하여, 개별 데이터의 기여도를 모호하게 만드는 것입니다.

작동 원리

  1. 쿼리 실행: 데이터 분석가가 데이터베이스에 쿼리(예: "30대 사용자들의 평균 소득은 얼마인가?")를 실행하면, 시스템은 먼저 실제 결과값을 계산합니다.
  2. 민감도(Sensitivity) 계산: 쿼리 결과가 데이터베이스 내의 단 한 사람의 데이터 변화에 의해 얼마나 크게 변할 수 있는지를 측정합니다. 예를 들어, 한 사람의 데이터를 추가하거나 제거했을 때 평균 소득의 최댓값 변화가 '민감도'가 됩니다. 민감도가 높을수록 더 많은 노이즈가 필요합니다.
  3. 노이즈 생성 및 추가: 계산된 민감도와 목표 프라이버시 수준(엡실론, ε)에 따라 노이즈의 크기가 결정됩니다. 이 노이즈를 실제 쿼리 결과에 더하여 최종 결과를 만듭니다.

대표적인 노이즈 메커니즘

  • 라플라스 메커니즘 (Laplace Mechanism): 평균, 합계, 개수 등 수치형 결과를 반환하는 쿼리에 주로 사용됩니다. 민감도에 비례하는 라플라스 분포에서 추출된 노이즈를 추가합니다.
  • 가우시안 메커니즘 (Gaussian Mechanism): 라플라스 메커니즘과 유사하지만, 정규분포(가우시안 분포)에서 노이즈를 추출합니다. 여러 쿼리를 조합하거나 머신러닝 모델의 학습 파라미터를 보호하는 등 더 복잡한 분석에 적합합니다.

결론적으로, 노이즈 추가 기법은 분석 결과에 약간의 불확실성을 주입하여 "이 결과가 특정 개인의 정보 때문에 이렇게 나온 것"이라고 확신할 수 없게 만듦으로써 개인의 프라이버시를 보호합니다.

무작위 응답

주로 설문조사와 같이 사용자로부터 직접 데이터를 수집하는 단계에서 적용되는 기법입니다. 응답자가 자신의 민감한 정보(예: 위법 행위 경험, 특정 정치 성향 등)를 직접적으로 노출하지 않고도 통계적으로 유의미한 데이터를 제공할 수 있게 합니다.

작동 원리

이해를 돕기 위해 "불법 다운로드 경험이 있습니까?"라는 민감한 질문을 예로 들어보겠습니다.

  1. 무작위 규칙 설정: 응답자에게 다음과 같은 규칙을 제시합니다.
    • "먼저, 동전을 던지세요."
    • "앞면이 나오면, 진실을 답해주세요."
    • "뒷면이 나오면, 다시 동전을 던져서 앞면이 나오면 '예', 뒷면이 나오면 '아니요'라고 무작위로 답해주세요."
  2. 응답자 답변: 응답자는 이 규칙에 따라 답변합니다. 질문자는 응답자가 어떤 규칙에 따라 답변했는지(진실을 말했는지, 무작위로 답했는지) 알 수 없습니다. 따라서 "예"라는 답변이 실제 경험 때문인지, 아니면 동전 던지기 결과 때문인지 구분할 수 없습니다.
  3. 통계적 보정: 데이터 수집가는 이렇게 수집된 수많은 응답을 바탕으로 통계적 보정을 통해 실제 "예"의 비율을 추정할 수 있습니다. 예를 들어, 전체 응답 중 70%가 "예"라고 나왔다면, 무작위 응답으로 인해 "예"가 나올 확률(이 경우 25%)을 제외하여 실제 불법 다운로드 경험자의 비율을 수학적으로 계산해낼 수 있습니다.

이 기법은 각 응답의 신뢰도를 희생하는 대신, 응답자에게 그럴듯한 부인 가능성(Plausible Deniability)을 제공하여 더 솔직한 답변을 유도하고, 전체 데이터셋의 통계적 정확성을 확보하는 데 목적이 있습니다. 지역형 차등 정보보호(Local DP)의 근간이 되는 중요한 기술입니다.

구현 모델에 따른 분류

중앙형 차등 정보보호 (Central DP):

  • 개념: 신뢰할 수 있는 중앙 데이터 관리자(서버)가 원본 데이터를 모두 수집합니다.
  • 처리: 관리자는 수집된 전체 데이터에 대해 쿼리를 실행하고, 그 결과값에 노이즈를 추가하여 외부에 공개합니다.
  • 장점: 데이터 전체의 통계적 특성을 파악한 후 최소한의 노이즈를 추가하므로 데이터의 정확성과 유용성이 높습니다.
  • 단점: 모든 원본 데이터가 중앙 서버에 집중되므로, 서버 관리자에 대한 높은 신뢰가 필요하며 서버가 해킹당할 경우 개인정보 유출 위험이 있습니다.

지역형 차등 정보보호 (Local DP):

  • 개념: 중앙 관리자를 신뢰하지 않는 모델입니다. 각 사용자의 기기(로컬)에서 데이터가 중앙 서버로 전송되기 전에 프라이버시 처리가 이루어집니다.
  • 처리: 각 사용자가 자신의 데이터에 직접 노이즈를 추가한 후, 처리된 데이터를 서버로 전송합니다. 서버는 노이즈가 포함된 데이터들을 수집하여 통계를 분석합니다.
  • 장점: 원본 데이터가 기기를 떠나지 않으므로 강력한 프라이버시를 보장합니다. 중앙 서버 관리자를 신뢰할 필요가 없습니다.
  • 단점: 각 데이터에 개별적으로 노이즈가 추가되므로 전체적으로 노이즈의 양이 많아져 데이터의 정확성과 유용성이 중앙형 모델에 비해 낮아질 수 있습니다.



댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...