기본 콘텐츠로 건너뛰기

라벨이 ldp인 게시물 표시

DP-14. 빈도수 오라클 주요 기법 상세 설명: k-RR

지역 차등 정보보호를 구현하는 대표적인 기술 중 하나가 바로 k-Randomized Response(k-RR), 우리말로는 'k-무작위화 응답'입니다. k-Randomized Response의 작동 과정 k-Randomized Response는 사용자가 자신의 실제 값을 일정 확률로 보내거나, 또는 완전히 다른 임의의 값으로 바꿔서 보내는 방식으로 작동합니다. 여기서 'k'는 사용자가 응답할 수 있는 가능한 값의 총 개수(카디널리티)를 의미합니다. 과정은 다음과 같이 간단하게 두 단계로 나눌 수 있습니다. 1단계: 사용자의 응답 무작위화 (클라이언트 측) 사용자는 자신의 실제 값을 서버에 보내기 전, 동전 던지기와 같은 확률적 과정을 거칩니다. 참 값을 보낼 확률 (p): 미리 정해진 확률 $p$에 따라 자신의 실제 값을 그대로 보냅니다. 거짓 값을 보낼 확률 (q): 반대로, 확률 $q$에 따라 자신의 실제 값을 제외한 나머지 (k-1)개의 값 중 하나를 무작위로 선택하여 보냅니다. 여기서 두 확률의 관계는 다음과 같이 정의됩니다. $$p + (k-1)q = 1$$ 프라이버시 보장 수준은 $p$의 값에 따라 달라집니다. $p$가 클수록 원본 데이터의 유용성은 높아지지만 프라이버시 보호 수준은 낮아집니다. 반대로 $p$가 작아지면 프라이버시 보호는 강화되지만, 수집된 데이터의 통계적 정확성은 떨어지게 됩니다. 예시: '예' 또는 '아니오' (k=2)로 답하는 설문조사를 생각해 보겠습니다. > 질문: "어제 운동을 하셨나요?" 한 사용자의 실제 답변이 '예'라고 가정해 봅시다. 확률 p (예: 75%) 로는 자신의 실제 값인 '예'를 그대로 서버에 전송합니다. 확률 q (예: 25%) 로는 다른 값인 '아니오'를 서버에 전송합니다. 만약 가능한 답변이 'A', 'B', 'C' (k=3) 세 가...