DP-13. 빈도수 오라클 (Frequency Oracle) 개요

용어의 유래

고대 신화에서 '오라클'은 신의 뜻을 전달하는 존재나 장소를 의미했습니다. 사람들은 직접 신을 볼 수는 없었지만, 오라클에게 질문을 던지면 신의 뜻에 대한 '답'이나 '예언'을 얻을 수 있었죠.

이 개념을 그대로 가져온 것입니다. 데이터 분석에서 서버(질문하는 사람)는 사용자의 '진짜 원본 데이터'(신)를 절대 직접 볼 수 없습니다. 하지만 "A라는 항목이 몇 번이나 등장했나요?"라고 질문을 던지면, 통계적으로 처리된 '답(빈도수)'은 얻을 수 있습니다.

즉, 원본 데이터에 접근하지 않고도 원하는 통계 정보(답)를 얻게 해주는 마법 같은 존재라는 의미에서 '오라클'이라는 단어를 사용합니다.

동작 방식

어떤 회사가 사용자들에게 가장 인기 있는 과일이 무엇인지 설문조사를 한다고 가정해 보겠습니다.

기존 방식: 모든 사용자에게 "가장 좋아하는 과일은?"이라고 묻고 답변("사과", "바나나" 등)을 그대로 수집합니다.

문제점: 서버는 'A라는 사용자가 사과를 좋아한다'는 민감할 수 있는 개인 정보를 직접 알게 됩니다. 만약 서버가 해킹당하면 모든 사용자의 응답이 유출될 수 있습니다.

빈도수 오라클 방식:

각 사용자는 자신이 좋아하는 과일("사과")을 서버에 바로 보내지 않습니다.
대신, 정해진 규칙에 따라 자신의 답변을 무작위로 바꿉니다. 예를 들어, 50% 확률로 진짜 답변을 보내고, 50% 확률로 다른 과일 중 하나를 무작위로 선택해서 보냅니다.
서버는 'A 사용자가 사과를 보냈네'라고 수신했지만, 이것이 진짜 답변인지 무작위로 바뀐 답변인지 절대 확신할 수 없습니다. (→ Plausible Deniability, 그럴싸한 부인 가능성)
서버는 이렇게 노이즈가 섞인 수천, 수만 개의 응답을 모아서 "무작위 응답으로 인해 추가된 노이즈"를 통계적으로 제거합니다.
그 결과, "전체적으로 약 30%의 사용자가 사과를, 25%가 바나나를 가장 좋아한다"와 같은 전체적인 통계는 높은 정확도로 추정할 수 있습니다.

이처럼, 개인의 프라이버시는 강력하게 보호하면서도 그룹 전체의 유용한 인사이트는 얻을 수 있게 됩니다.

주요 기법들

Randomized Response는 가장 기본적인 기법이며, 더 효율적이고 정교한 여러 기법이 연구되었습니다.

Randomized Response (RR): '예/아니오'와 같은 이진(binary) 데이터나 선택지가 매우 적은 데이터에 효과적입니다.
k-Randomized Response (k-RR): 선택지가 k개인 경우로 확장한 기법입니다.
RAPPOR (Google): 해시(Hash) 기술을 이용해 답변 가능한 항목의 수가 매우 많을 때(예: 브라우저 홈페이지 주소)도 효율적으로 빈도를 추정할 수 있도록 구글에서 개발한 기술입니다.
Unary Encoding (UE) 기반 기법 (OUE, SUE): 답변 항목이 많을 때 k-RR보다 훨씬 높은 정확도를 보여주는 최신 기법들입니다. 각 항목을 0과 1로 구성된 긴 벡터로 변환(인코딩)한 뒤, 이 벡터의 각 비트(0 또는 1)를 무작위로 뒤집는 방식으로 작동합니다.

요약

빈도수 오라클은 지역 차등 정보보호의 철학을 구현하는 핵심 기술로, 사용자의 프라이버시를 최우선으로 보호하면서도 데이터 전체의 경향성(빈도)을 파악할 수 있게 해주는 강력한 도구입니다. 이 기술 덕분에 Apple, Google, Microsoft 같은 기업들은 수많은 사용자로부터 유용한 정보를 얻으면서도 개인정보를 보호할 수 있습니다.

천천히, 제대로

이 블로그 검색