기본 콘텐츠로 건너뛰기

라벨이 카이제곱 검정인 게시물 표시

카이제곱 검정 제대로 이해하기

카이제곱 검정 제대로 이해하기 1. 개념 이해 비교란 무엇인가? 비교의 대상은 두 개이고 두 비교 대상의 차이를 살펴 보는 것이다. 여기서는 관찰값 과 기댓값 의 차이를 사용한다. 관찰값: 관찰을 통해 얻는 값 기댓값: 관찰값에 대한 기댓값으로서 어떤 가정을 바탕 으로 함. 두 비교 대상에 대하여 비교할 수 있는 지점은 한 개일 수도 있고 여러 개일 수도 있다. 비교의 목적은 무엇인가? 관찰값 과 관찰값 을 비교 대상으로 삼을 수는 없는가? 비교할 수 있다. 그런데 어떻게 비교할 것인가? 기댓값을 찾고 관찰값들이 기댓값을 중심으로 어떤 분포를 따르는지 이해하는 것이 필요하다. 왜 그런가? 분포를 가정하지 않으면 흔히 일어나는 차이인지 아니면 드물게 일어나는 차이인지 객관적으로 표현하기가 어렵다. 기댓값 을 찾으려면 왜 그런 기대를 하게 되었는지와 관련하여 어떤 가정을 세워야 한다. 그 가정 위에서 기댓값을 구하고 차이를 계산했더니 흔히 일어나는 차이에 해당하면 그 가정은 유효하다고 간주하고 드물게 일어나는 차이에 해당하면 그 가정은 유효하지 않다고 간주한다. 결국 관찰값과 기댓값의 차이를 통해 가정이 유효한지 아닌지 판단하는 것이므로 비교의 목적은 어떤 가정을 채택할 것인지 버릴 것인지를 판단하기 위함 이라고 말할 수 있다. 2. 차이의 정도와 의미 차이의 정도를 수치로 나타낼 수 있는가? 비교 대상 간의 총체 적인 차이 는 무엇으로 정의할 것인가? 개별 데이터 지점에서의 차이 값의 제곱의 합 이라고 정의하자. 절대값의 합이 아니라 제곱의 합으로 정의한 이유는 수학적으로 다루기가 훨씬 쉽기 때문일 것이다. 아래의 수식은 피어슨 카이제곱 통계량 이고 이것으로 총체 적인 차이 를 계산한다. O i O_i O i ​ 는 i i i 번째 데이터 지점에서의 관찰값, E i E_i E i ​ 는 i i i 번째 데이터 지점에서의 기댓값을 나타낸다. χ 2 =...

독일 V2 로켓과 런던 폭격 - 푸아송 분포와 카이제곱 검정

독일 V2 로켓과 런던 폭격 - 푸아송 분포와 카이제곱 검정 아래 자료들을 참고하면서 실습을 하였습니다. AN APPLICATION OF THE POISSON DISTRIBUTION , by R. D. CLARKE The flying bomb and the actuary - Royal Statistical Society , Wiley 푸아송 분포 실제값 n_squares = 576 n_bombs = 537 # 구역당 떨어진 폭탄 수의 평균 m = n_bombs / n_squares print ( f '{m:.3f}' ) 0.932 # 구역당 떨어진 폭탄 수 n_bombs_per_square = [ 0 , 1 , 2 , 3 , 4 , 5 ] # 해당 구역 수 (관찰도수) observed_num_of_squares = [ 229 , 211 , 93 , 35 , 7 , 1 ] print ( f '# of squares: {sum(observed_num_of_squares)}' ) # of squares: 576 기댓값 import math def poisson_distribution ( m , k ) : return pow ( m , k ) / math . factorial ( k ) * pow ( math . e , - m ) # 푸아송 분포에 따른 기대 구역 수 (기대도수) expected_num_of_squares = [ n_squares * poisson_distribution ( m , k ) for k in n_bombs_per_square ] print ( [ round ( v , 2 ) for v in expected_num_of_squares ] ) n_expected_squares = sum ( expected_num_of_squares ) expect...

가설 검정 제대로 이해하기

가설 검정 제대로 이해하기 ( 주의 : 공부하면서 작성하는 문서라서 오류가 있을 수 있습니다.) 1. 문제 정의 1.1. 사례 기존 가설: 20 대 한국인 남성의 100 미터 달리기 평균 속도는 17 초 새로운 실험 결과: 무작위로 추출한 20 대 한국인 남성 500 명의 100 미터 달리기 평균 속도는 16 초 위 사례에서 새로운 실험 결과가 우연히 일어났다고 보는 것이 적절할까요 아니면 가설이 유효하지 않은걸까요? 정답이 존재하지 않는 이런 종류의 문제를 다루기 위해서는 차이가 얼마나 의미있는지 표현하는 객관적인 방법이 있어야 하지 않을까요? 1.2. 문제 기존 가설과 새로운 실험의 결과가 양립하는 정도 를 체계 적인 과정을 통해 숫자 로 표현하는 방법은 무엇인가? 2. 용어 정리 2.1. 출처: 위키백과 , WIKIPEDIA 통계적 추론 추론 통계 또는 추론 통계학(inferential statistics)으로 불린다. 기술 통계학(descriptive statistics)과 구별되는 개념 도수 확률(frequency probability)과 사전 확률(prior probability)을 기반으로 하는 베이즈 추론의 두 학파가 있다. 추정 (estimation)과 가설 검정 (hypothesis test)으로 나눌 수 있다. 가설 검정 통계적 가설 검정(statistical hypothesis test) 모집단 실제의 값이 얼마가 된다는 주장 과 관련해, 표본 의 정보를 사용 해서 가설의 합당성 여부를 판정 하는 과정 가설 검정 또는 가설검증(hypothesis test)이라고 부르는 경우도 많다. 통계적 가설 하나의 특정 주장을 모수 를 이용해 나타낸 형태 를 지칭 귀무가설 (Null hypothesis, H 0 H_0 H 0 ​ , 영가설)과 이와 반대에 있는 대립가설 (Alternative hypothesis, H 1 H_1 H 1 ​ )로 나타낸...