기본 콘텐츠로 건너뛰기

7월, 2024의 게시물 표시

카이제곱 검정 제대로 이해하기

카이제곱 검정 제대로 이해하기 1. 개념 이해 비교란 무엇인가? 비교의 대상은 두 개이고 두 비교 대상의 차이를 살펴 보는 것이다. 여기서는 관찰값 과 기댓값 의 차이를 사용한다. 관찰값: 관찰을 통해 얻는 값 기댓값: 관찰값에 대한 기댓값으로서 어떤 가정을 바탕 으로 함. 두 비교 대상에 대하여 비교할 수 있는 지점은 한 개일 수도 있고 여러 개일 수도 있다. 비교의 목적은 무엇인가? 관찰값 과 관찰값 을 비교 대상으로 삼을 수는 없는가? 비교할 수 있다. 그런데 어떻게 비교할 것인가? 기댓값을 찾고 관찰값들이 기댓값을 중심으로 어떤 분포를 따르는지 이해하는 것이 필요하다. 왜 그런가? 분포를 가정하지 않으면 흔히 일어나는 차이인지 아니면 드물게 일어나는 차이인지 객관적으로 표현하기가 어렵다. 기댓값 을 찾으려면 왜 그런 기대를 하게 되었는지와 관련하여 어떤 가정을 세워야 한다. 그 가정 위에서 기댓값을 구하고 차이를 계산했더니 흔히 일어나는 차이에 해당하면 그 가정은 유효하다고 간주하고 드물게 일어나는 차이에 해당하면 그 가정은 유효하지 않다고 간주한다. 결국 관찰값과 기댓값의 차이를 통해 가정이 유효한지 아닌지 판단하는 것이므로 비교의 목적은 어떤 가정을 채택할 것인지 버릴 것인지를 판단하기 위함 이라고 말할 수 있다. 2. 차이의 정도와 의미 차이의 정도를 수치로 나타낼 수 있는가? 비교 대상 간의 총체 적인 차이 는 무엇으로 정의할 것인가? 개별 데이터 지점에서의 차이 값의 제곱의 합 이라고 정의하자. 절대값의 합이 아니라 제곱의 합으로 정의한 이유는 수학적으로 다루기가 훨씬 쉽기 때문일 것이다. 아래의 수식은 피어슨 카이제곱 통계량 이고 이것으로 총체 적인 차이 를 계산한다. O i O_i O i ​ 는 i i i 번째 데이터 지점에서의 관찰값, E i E_i E i ​ 는 i i i 번째 데이터 지점에서의 기댓값을 나타낸다. χ 2 =...

독일 V2 로켓과 런던 폭격 - 푸아송 분포와 카이제곱 검정

독일 V2 로켓과 런던 폭격 - 푸아송 분포와 카이제곱 검정 아래 자료들을 참고하면서 실습을 하였습니다. AN APPLICATION OF THE POISSON DISTRIBUTION , by R. D. CLARKE The flying bomb and the actuary - Royal Statistical Society , Wiley 푸아송 분포 실제값 n_squares = 576 n_bombs = 537 # 구역당 떨어진 폭탄 수의 평균 m = n_bombs / n_squares print ( f '{m:.3f}' ) 0.932 # 구역당 떨어진 폭탄 수 n_bombs_per_square = [ 0 , 1 , 2 , 3 , 4 , 5 ] # 해당 구역 수 (관찰도수) observed_num_of_squares = [ 229 , 211 , 93 , 35 , 7 , 1 ] print ( f '# of squares: {sum(observed_num_of_squares)}' ) # of squares: 576 기댓값 import math def poisson_distribution ( m , k ) : return pow ( m , k ) / math . factorial ( k ) * pow ( math . e , - m ) # 푸아송 분포에 따른 기대 구역 수 (기대도수) expected_num_of_squares = [ n_squares * poisson_distribution ( m , k ) for k in n_bombs_per_square ] print ( [ round ( v , 2 ) for v in expected_num_of_squares ] ) n_expected_squares = sum ( expected_num_of_squares ) expect...

독일 V2 로켓과 런던 폭격 - 푸아송 분포 응용

독일 V2 로켓과 런던 폭격 - 푸아송 분포 응용 관심을 가졌던 사항은 2차 세계 대전 말기 독일 V2 로켓에 의한 런던 폭격 지점의 분포와 푸아송 분포 응용 사례였는데 우연히 접한 기사를 흥미있게 읽다가 오류로 의심되는 부분을 발견하고 이를 확인하는 과정에서 글을 쓰게 되었습니다. 기사 인용 [문학이 사랑한 통계⑬] 로저 멕시코와 함께하는 확률론 강의 , 2019.01.03, 시사위크 도서 내용 중 일부 - 토머스 핀천, 중력의 무지개, 이상국 옮김, 새물결 로저는 그녀에게 V폭탄 의 통계에 대해 애써 설명했다. 천사의 눈에나 보일 영국 지도 안의 분포와 이 아래 인간의 눈에 보이는, 그들 자신이 살아남을 기회의 차이에 대해. “그러나 이미 폭격을 몇 번이나 받은 곳도 있잖아. 그러니까-” “미안하지만 그게 바로 몬테카를로 오류라는 거야. 특정한 지역에 얼마나 많이 떨어졌든 미래의 확률은 차이가 없어. 로켓 들은 각자, 서로와 아무 관계없이 떨어져. 폭탄 은 개가 아니야. 관계도 모르고, 기억도 없어. 적응이란 것도 없어.” 교과서의 푸아송 공식으로 예측되는 분포 그대로, 정말로 로켓 들은 런던 전역에 떨어진다. 기사 내용 중 일부 런던 대공습 에 나선 독일의 폭격기 조종사들은 과연 폭탄 을 떨어트릴 때 분명한 목표물을 갖고 있었을까. 이 주제에 대해선 실제로 연구가 진행된 바 있다. 2차 세계대전 당시 영국 통계학자 R.D.클라크 는 런던 남부를 576개(24_24) 구역으로 나누고, 각각의 구역에 떨어진 *_폭탄 의 개수를 세는 방식으로 통계검정 을 진행했다. 만약 독일 공군이 특별한 타깃 없이 무작위로 폭탄 을 떨어트렸다면(평균확률밀도가 일정하다면) 구역별로 폭탄 이 떨어진 횟수의 분포는 푸아송분포를 따를 것이다. 확인이 필요한 사항 위 글에서 다음 두 가지 사항이 맞는지 확인해 볼 필요가 있습니다. 도서 내용 중 로저가 V폭탄 의 통...

데이터 시각화 요약 정리

데이터 시각화 요약 정리 데이터 시각화 유형 시간 시각화 막대 그래프(Bar Chart) 누적 막대 그래프 그룹 막대 그래프 선 차트 영역 차트 누적 영역 차트 공간 시각화 코노플레스 지도 버블맵 카토그램(Cartogram) 분포 시각화 파이 차트(Pie Chart) 도넛 차트(Donut Chart) 트리맵 차트(Tree Map Chart) 관계 시각화 산점도 산점도 행렬 버블 차트(Bubble Chart) 비교 시각화 체르노프 페이스(Chernoff Face) 플로팅 바(Floating Bar) 평행 차트(Parallel Chart) 스타 차트(Start Chart) 히트맵(Heatmap) 인포그래픽 벤 프라이 의 시각화 방법론 획득 분해 선별 마이닝 표현 정제 상호작용 자크 베르댕 의 그래픽 7 요소 위치 크기 모양 색 명도 기울기 질감 에드워드 터프티 의 시각 정보 디자인 7 원칙 정보의 밀도를 높이라. 비교를 강조하라. 다중 변수를 표현하라. 데이터 왜곡을 피하라. 잉크의 효율적인 사용. 간결하고 명확한 디자인. 시간 순서를 존중하라. 정량적 자료의 정량성을 유지하라. Written with StackEdit .