기본 콘텐츠로 건너뛰기

라벨이 지역민감도인 게시물 표시

DP-13. 빈도수 오라클 (Frequency Oracle) 개요

용어의 유래 고대 신화에서 '오라클'은 신의 뜻을 전달하는 존재나 장소를 의미했습니다. 사람들은 직접 신을 볼 수는 없었지만, 오라클에게 질문을 던지면 신의 뜻에 대한 '답'이나 '예언'을 얻을 수 있었죠. 이 개념을 그대로 가져온 것입니다. 데이터 분석에서 서버(질문하는 사람)는 사용자의 '진짜 원본 데이터'(신)를 절대 직접 볼 수 없습니다. 하지만 "A라는 항목이 몇 번이나 등장했나요?"라고 질문을 던지면, 통계적으로 처리된 '답(빈도수)'은 얻을 수 있습니다. 즉, 원본 데이터에 접근하지 않고도 원하는 통계 정보(답)를 얻게 해주는 마법 같은 존재 라는 의미에서 '오라클'이라는 단어를 사용합니다. 동작 방식 어떤 회사가 사용자들에게 가장 인기 있는 과일이 무엇인지 설문조사를 한다고 가정해 보겠습니다. 기존 방식: 모든 사용자에게 "가장 좋아하는 과일은?"이라고 묻고 답변("사과", "바나나" 등)을 그대로 수집합니다. 문제점: 서버는 'A라는 사용자가 사과를 좋아한다'는 민감할 수 있는 개인 정보를 직접 알게 됩니다. 만약 서버가 해킹당하면 모든 사용자의 응답이 유출될 수 있습니다. 빈도수 오라클 방식: 각 사용자는 자신이 좋아하는 과일("사과")을 서버에 바로 보내지 않습니다. 대신, 정해진 규칙에 따라 자신의 답변을 무작위로 바꿉니다. 예를 들어, 50% 확률로 진짜 답변을 보내고, 50% 확률로 다른 과일 중 하나를 무작위로 선택해서 보냅니다. 서버는 'A 사용자가 사과를 보냈네'라고 수신했지만, 이것이 진짜 답변인지 무작위로 바뀐 답변인지 절대 확신할 수 없습니다. (→ Plausible Deniability, 그럴싸한 부인 가능성) 서버는 이렇게 노이즈가 섞인 수천, 수만 개의 응답을 모아서 "무작위 응답으로 인해 추가된 노이즈...

차등 정보보호 - 4. 데이터 처리 방식 및 구현 모델에 따른 분류

데이터 처리 방식에 따른 분류 데이터에 직접 적용되어 프라이버시를 보장하는 핵심 알고리즘들입니다. 노이즈 추가 차등 정보보호에서 가장 보편적으로 사용되는 기법입니다. 핵심 원리는 데이터베이스에 대한 통계적 질의(Query)의 결과값 에 수학적으로 생성된 '노이즈(noise)'라고 불리는 무작위 숫자 를 더하여, 개별 데이터의 기여도를 모호하게 만드는 것입니다. 작동 원리 쿼리 실행 : 데이터 분석가가 데이터베이스에 쿼리(예: "30대 사용자들의 평균 소득은 얼마인가?")를 실행하면, 시스템은 먼저 실제 결과값을 계산합니다. 민감도(Sensitivity) 계산 : 쿼리 결과가 데이터베이스 내의 단 한 사람의 데이터 변화에 의해 얼마나 크게 변할 수 있는지를 측정합니다. 예를 들어, 한 사람의 데이터를 추가하거나 제거했을 때 평균 소득의 최댓값 변화가 '민감도'가 됩니다. 민감도가 높을수록 더 많은 노이즈가 필요합니다. 노이즈 생성 및 추가 : 계산된 민감도와 목표 프라이버시 수준(엡실론, ε)에 따라 노이즈의 크기가 결정됩니다. 이 노이즈를 실제 쿼리 결과에 더하여 최종 결과를 만듭니다. 대표적인 노이즈 메커니즘 라플라스 메커니즘 (Laplace Mechanism) : 평균, 합계, 개수 등 수치형 결과 를 반환하는 쿼리에 주로 사용됩니다. 민감도에 비례하는 라플라스 분포에서 추출된 노이즈를 추가합니다. 가우시안 메커니즘 (Gaussian Mechanism) : 라플라스 메커니즘과 유사하지만, 정규분포(가우시안 분포)에서 노이즈를 추출합니다. 여러 쿼리를 조합하거나 머신러닝 모델의 학습 파라미터를 보호하는 등 더 복잡한 분석에 적합합니다. 결론적으로, 노이즈 추가 기법은 분석 결과에 약간의 불확실성을 주입하여 "이 결과가 특정 개인의 정보 때문에 이렇게 나온 것"이라고 확신할 수 없게 만듦으로써 개인의 프라이버시를 보호합니다. 무작위 응답 주로 설문조사와 같이 사용자로부터 직접 데이터를 수집하는 ...