기본 콘텐츠로 건너뛰기

라벨이 민감도인 게시물 표시

차등 정보보호 - 5. 인접 데이터셋의 두 가지 주요 정의

차등 정보보호 - 5. 인접 데이터셋의 두 가지 주요 정의 차등 정보보호에서 인접 데이터셋(Adjacent Datasets)은 단 한 사람의 데이터만 다른 두 개의 데이터셋을 의미합니다. 이 개념은 "어떤 한 개인이 데이터셋에 포함되거나 포함되지 않더라도, 분석 결과가 거의 바뀌지 않아야 한다"는 차등 정보보호의 핵심 아이디어를 수학적으로 정의하는 기준이 됩니다. 인접 데이터셋의 두 가지 주요 정의 인접 데이터셋을 정의하는 방식에는 크게 두 가지가 있으며, 사용 사례에 따라 구분됩니다. 1. 비제한적 인접성 (Unbounded Adjacency) - 추가/삭제 가장 일반적인 정의입니다. 두 데이터셋 D1과 D2는 한 개의 레코드(데이터 행)를 추가하거나 삭제해서 서로를 만들 수 있을 때 '인접’하다고 말합니다. 수학적 표현: ∣D1ΔD2∣=1 여기서 Δ는 대칭차(Symmetric Difference)를 의미합니다. 즉, 한쪽에만 있고 다른 쪽에는 없는 원소의 개수가 1개라는 뜻입니다. 예시: 100명의 환자 데이터가 담긴 데이터셋 D1이 있다고 가정해 봅시다. D2: D1에서 특정 환자 A의 데이터를 삭제한 99명의 데이터셋 D3: D1에 새로운 환자 B의 데이터를 추가한 101명의 데이터셋 이때, (D1, D2)는 인접 데이터셋이고, (D1, D3)도 인접 데이터셋입니다. 이 정의는 데이터셋의 전체 크기가 바뀔 수 있는 전역 민감도(Global Sensitivity) 모델에서 주로 사용 됩니다. 2. 제한적 인접성 (Bounded Adjacency) - 대체 두 데이터셋의 크기(레코드 수)는 동일하지만, 단 하나의 레코드 내용만 다를 때 '인접’하다고 말합니다. 수학적 표현: 데이터셋 D1과 D2는 크기가 같고, 단 하나의 인덱스 i에서만 D1[i] ≠ D2[i]를 만족합니다. 예시: 100명의 설문조사 응답 데이터셋 D1이 있습니다. D2: D1에...

진단 성능 평가 지표

진단 성능 평가 지표 혼동행렬(Confusion Matrix) 진단 장비의 성능을 파악하기 위하여 질병의 유무를 알고 있는 사람들을 대상으로 진단을 수행하고 아래와 같이 혼동행렬을 작성합니다. A: 진양성(True Positive) 수 B: 위양성(False Positive) 수 C: 위음성(False Negative) 수 D: 진음성(True Negative) 수 성능 평가 민감도(Sensitivity) 질병이 있는 사람을 양성으로 판정하는 정도를 민감도(sensitivity)라고 하며 아래와 같이 구합니다. 민감도 = A A + C \frac{ A } { A+C } A + C A ​ 특이도(Specificity) 질병이 없는 사람을 음성으로 판정하는 정도를 특이도(specificity)라고 하며 아래와 같이 구합니다. 특이도 = D B + D \frac{ D }{ B+D } B + D D ​ 재현율(Recall) 민감도와 같습니다. 재현율 = A A + C \frac{ A }{ A+C } A + C A ​ 정밀도(Precision) 정밀도 = A A + B \frac{ A }{ A+B } A + B A ​ 정확도(Accuracy) 정확도 = A + D A + B + C + D \frac{ A+D }{ A+B+C+D } A + B + C + D A + D ​ 성능 지표 AUC ROC 양성, 음성 판단 기준을 변경하면 혼동행렬에서 A, B, C, D의 값이 달라지고 이것은 민감도와 특이도가 변한다는 것을 의미합니다. 그래서 양성, 음성 판단 기준을 조정해 가면서 아래와 같은 민감도, 특이도 그래프를 그릴 수 있습니다. TP 비율(True Positive Rate) = 민감도 FP 비율(False Positive Rate) = 1 - 특이도 그래프 곡선 아래의 면적을 구함으로써 성능 평가 지표인 AUC(Area Under the Curve) ROC(Re...