카이제곱 검정 제대로 이해하기 1. 개념 이해 비교란 무엇인가? 비교의 대상은 두 개이고 두 비교 대상의 차이를 살펴 보는 것이다. 여기서는 관찰값 과 기댓값 의 차이를 사용한다. 관찰값: 관찰을 통해 얻는 값 기댓값: 관찰값에 대한 기댓값으로서 어떤 가정을 바탕 으로 함. 두 비교 대상에 대하여 비교할 수 있는 지점은 한 개일 수도 있고 여러 개일 수도 있다. 비교의 목적은 무엇인가? 관찰값 과 관찰값 을 비교 대상으로 삼을 수는 없는가? 비교할 수 있다. 그런데 어떻게 비교할 것인가? 기댓값을 찾고 관찰값들이 기댓값을 중심으로 어떤 분포를 따르는지 이해하는 것이 필요하다. 왜 그런가? 분포를 가정하지 않으면 흔히 일어나는 차이인지 아니면 드물게 일어나는 차이인지 객관적으로 표현하기가 어렵다. 기댓값 을 찾으려면 왜 그런 기대를 하게 되었는지와 관련하여 어떤 가정을 세워야 한다. 그 가정 위에서 기댓값을 구하고 차이를 계산했더니 흔히 일어나는 차이에 해당하면 그 가정은 유효하다고 간주하고 드물게 일어나는 차이에 해당하면 그 가정은 유효하지 않다고 간주한다. 결국 관찰값과 기댓값의 차이를 통해 가정이 유효한지 아닌지 판단하는 것이므로 비교의 목적은 어떤 가정을 채택할 것인지 버릴 것인지를 판단하기 위함 이라고 말할 수 있다. 2. 차이의 정도와 의미 차이의 정도를 수치로 나타낼 수 있는가? 비교 대상 간의 총체 적인 차이 는 무엇으로 정의할 것인가? 개별 데이터 지점에서의 차이 값의 제곱의 합 이라고 정의하자. 절대값의 합이 아니라 제곱의 합으로 정의한 이유는 수학적으로 다루기가 훨씬 쉽기 때문일 것이다. 아래의 수식은 피어슨 카이제곱 통계량 이고 이것으로 총체 적인 차이 를 계산한다. O i O_i O i 는 i i i 번째 데이터 지점에서의 관찰값, E i E_i E i 는 i i i 번째 데이터 지점에서의 기댓값을 나타낸다. χ 2 =...