조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다.
조별 단체 식사 준비와 회귀 현상 발생
100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다.
- 10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다.
- 한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다.
- 오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다.
- 내가 속한 조에서는 몇 주 후에 담당할 식사 준비를 두고 약간의 걱정 섞인 농담이 오고간다.
- “우리는 컵라면을 고려하고 있었는데 이러면 컵라면을 내놓기는 어렵겠는데요.”
- “이 시점에서 컵라면으로 식사 기대치를 좀 낮추는 것도 필요하지 않을까요?”
- “여러 종류의 컵라면을 준비하고 밥과 김치를 함께 제공하면 나름대로 괜찮을 겁니다.”
위의 사례에서처럼 식사 품질이 무한히 상승하거나 하강하는 것을 억제하는 작용들이 일어나서 결국 어떤 지점을 중심으로 들쭉날쭉하는 모습을 보일 것이며 이에 대해 다음과 같이 말할 수 있습니다.
- 식사 품질이 어떤 지점으로 돌아가는 현상을 가리켜 회귀라고 한다.
- 회귀가 지속적으로 일어나면 경향성을 가지고 있는 것으로 간주한다.
- 회귀 지점이 어디인지를 찾는 것을 회귀 문제를 푼다라고 말한다.
회귀라는 용어가 어렵게 느껴지는 이유
'회귀’의 사전적 의미는 '돌아간다’입니다. 그런데 '회귀 문제’라고 부르는 특정 유형의 문제를 좀 더 세부적으로 설명하는 아래의 내용을 보면 여러 변수들 간의 상관 관계를 다루는 문제라고 말할 수 있습니다.
대표적인 회귀 문제 유형으로 다음 두 가지를 들 수 있습니다.
- 선형 회귀 (X 값이 주어졌을 때 Y 값의 예측)
- 예시 1: 한국인 20대 남성의 키가 주어졌을 때 몸무게 예측
- 예시 2: 한국인 50대 여성의 몸무게와 러닝머신 속도가 주어졌을 때 심박수 예측
- 로지스틱 회귀 (X 값이 주어졌을 때 어떤 범주에 속하는지 예측)
- 예시 1: 대출 신청자의 신용 점수, 연 소득, 부채 비율, 직업, 대출 금액이 주어졌을 때 대출 승인 여부 예측
- 예시 2: 생산 공정 중의 센서 데이터(온도, 압력 등), 사용된 원자재 정보, 생산 라인, 작업 시간이 주어졌을 때 제품 품질 불량 여부 예측
결국 독자는 자신이 알고 있는 사전적 의미인 '돌아간다’를 토대로 통계에서 왜 그러한 용어를 쓰는지 이해해 보려고 노력하지만 명확하게 이해하는데 어려움을 겪게 됩니다. 이로부터 통계에서 만나는 회귀라는 용어가 어렵게 느껴질 수밖에 없는 이유를 유추할 수 있습니다.
- 회귀라는 용어는 어떤 요인이 작용하여 특정 분포가 나타나는 과정의 특성을 지칭함
- 회귀 분석은 어떤 요인이 작용하여 돌아가는 현상이 나타난 결과, 즉 특정 분포의 특성을 분석하는 데 초점을 맞추고 있음
따라서 용어 이해의 어려움은 문제 유형 정의를 위해 사용한 용어와 문제를 풀 때 사용하는 용어가 담고 있는 의미들 간의 간극에서 온다고 말할 수 있습니다.
회귀라는 용어를 쉽게 설명하는 방법
하지만 아래와 같은 설명으로 시작하면 '회귀’라는 용어가 어렵거나 낯설게 느껴지지 않을 것입니다.
어떤 값들이 특정 값을 중심으로 모여 있는 분포를 보인다면 그러한 결과가 나타나게 하는 요인이 있을 것입니다. 위에서 예로 든 단체 식사 준비와 관련해서는 다음 두 가지 요인이 작용한다고 볼 수 있습니다.
- 식사 준비 비용과 구성원의 노고에 따르는 부담은 식사 품질이 무한히 상승하는 것을 억제할 것입니다.
- 식사 만족도가 떨어지면 듣게 될 비난에 대한 걱정이 식사 품질이 떨어지는 것에 대한 억제 요인이 될 것입니다.
이러한 요인에 의하여 어떤 값으로 돌아가는 현상이 일어나는 것이고 돌아가는 과정을 '회귀’라고 부릅니다.
그렇다면 "한국인 20대 남성의 키가 주어졌을 때 몸무게 예측"에 대해서는 회귀를 어떻게 설명할 수 있을까요?
한국인 20대 남성의 키가 160cm인 경우 몸무게의 평균이 65kg이라고 가정합시다.
- 더 많이 먹거나 운동을 적게 하면 체중이 증가할 것입니다. 그러면 계단을 오를 때 호흡이 힘들어지고 몸매에 대한 주변의 시선에도 더 신경을 쓰게 되어서 체중 감량에 대한 압박을 받게 됩니다.
- 너무 적게 먹거나 운동을 많이 하면 체중이 감소할 것입니다. 영양 부족이나 불균형으로 인하여 건강이 나빠질 수도 있고 이 경우 역시 몸매에 대한 주변의 시선에 영향을 받아서 체중 증가를 위한 다양한 시도에 나설 가능성이 높아집니다.
생물학적, 또는 심리적 요인들이 작용하여 체중을 특정 값으로 돌아가게 하는 과정을 일으키며 그 결과로 특정 값을 중심으로 하는 분포가 나타납니다.
정리
'상관 관계 분석’이 '회귀 분석’이라는 용어를 완벽하게 대체할 수 있을까요? 또는 더 적합한 용어가 될 수 있을까요?
질문에 답하기 위하여 각각의 용어가 가지고 있는 의미를 최대한 살려서 아래와 같이 표현해 보았습니다.
- 회귀 현상: 어딘가로 돌아가는 특성을 보이는 현상
- 회귀 문제: 회귀 현상과 관련된 문제들을 지칭
- 현상의 원인과 결과 간의 관계에 초점을 맞추면 인과 관계 분석 문제
- 현상이 일어나는 과정에 초점을 맞추면 역학 문제
- 현상의 결과인 특정 분포에서 변수들 간의 상관 관계에 초점을 맞추면 상관 관계 분석 문제
결론적으로,
- ’회귀 분석’ 대 ‘상관 관계 분석’:
- 하나의 문제 유형을 지칭하는 두 가지 용어로 쓰이고 있음
- 해당 문제의 특성, 그리고 각각의 용어 자체의 의미를 고려하면 '상관 관계 분석’이라고 부르는 것이 더 적합
- '회귀 분석’이라고 부르면 넓은 범위에 해당하는 용어를 사용하여 좁은 범위의 문제를 지칭할 때 발생하는 인지 부조화 상태 초래
Written with StackEdit.
댓글 없음:
댓글 쓰기