조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다.
조별 단체 식사 준비와 회귀 현상 발생
100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다.
- 10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다.
- 한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다.
- 오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다.
- 내가 속한 조에서는 몇 주 후에 담당할 식사 준비를 두고 약간의 걱정 섞인 농담이 오고간다.
- “우리는 컵라면을 고려하고 있었는데 이러면 컵라면을 내놓기는 어렵겠는데요.”
- “이 시점에서 컵라면으로 식사 기대치를 좀 낮추는 것도 필요하지 않을까요?”
- “여러 종류의 컵라면을 준비하고 밥과 김치를 함께 제공하면 나름대로 괜찮을 겁니다.”
위의 사례에서처럼 식사 품질이 무한히 상승하거나 하강하는 것을 억제하는 작용들이 일어나서 결국 어떤 지점을 중심으로 들쭉날쭉하는 모습을 보일 것이며 이에 대해 다음과 같이 말할 수 있습니다.
- 식사 품질이 어떤 지점으로 돌아가는 현상을 가리켜 회귀라고 한다.
- 회귀가 지속적으로 일어나면 경향성을 가지고 있는 것으로 간주한다.
- 회귀 지점이 어디인지를 찾는 것을 회귀 문제를 푼다라고 말한다.
회귀라는 용어가 어렵게 느껴지는 이유
"회귀"의 사전적 의미는 "돌아간다"입니다. 그런데 "회귀 문제"라고 부르는 특정 유형의 문제를 좀 더 세부적으로 설명하는 아래의 내용을 보면 여러 변수들 간의 상관 관계를 다루는 문제라고 말할 수 있습니다.
대표적인 회귀 문제 유형으로 다음 두 가지를 들 수 있습니다.
- 선형 회귀 (X 값이 주어졌을 때 Y 값의 예측)
- 예시 1: 한국인 20대 남성의 키가 주어졌을 때 몸무게 예측
- 예시 2: 한국인 50대 여성의 몸무게와 러닝머신 속도가 주어졌을 때 심박수 예측
- 로지스틱 회귀 (X 값이 주어졌을 때 어떤 범주에 속하는지 예측)
- 예시 1: 대출 신청자의 신용 점수, 연 소득, 부채 비율, 직업, 대출 금액이 주어졌을 때 대출 승인 여부 예측
- 예시 2: 생산 공정 중의 센서 데이터(온도, 압력 등), 사용된 원자재 정보, 생산 라인, 작업 시간이 주어졌을 때 제품 품질 불량 여부 예측
결국 독자는 자신이 알고 있는 사전적 의미인 "돌아간다"를 토대로 통계에서 왜 그러한 용어를 쓰는지 이해해 보려고 노력하지만 명확하게 이해하는데 어려움을 겪게 됩니다. 이로부터 통계에서 만나는 회귀라는 용어가 어렵게 느껴질 수밖에 없는 이유를 유추할 수 있습니다.
- 회귀라는 용어는 어떤 요인이 작용하여 특정 분포가 나타나는 과정의 특성을 지칭함
- 회귀 분석은 어떤 요인이 작용하여 돌아가는 현상이 나타난 결과, 즉 특정 분포의 특성을 분석하는 데 초점을 맞추고 있음
따라서 용어 이해의 어려움은 문제 유형 정의를 위해 사용한 용어와 문제를 풀 때 사용하는 용어가 담고 있는 의미들 간의 간극에서 온다고 말할 수 있습니다.
회귀라는 용어를 쉽게 설명하는 방법
하지만 아래와 같은 설명으로 시작하면 "회귀"라는 용어가 어렵거나 낯설게 느껴지지 않을 것입니다.
어떤 값들이 특정 값을 중심으로 모여 있는 분포를 보인다면 그러한 결과가 나타나게 하는 요인이 있을 것입니다. 위에서 예로 든 단체 식사 준비와 관련해서는 다음 두 가지 요인이 작용한다고 볼 수 있습니다.
- 식사 준비 비용과 구성원의 노고에 따르는 부담은 식사 품질이 무한히 상승하는 것을 억제할 것입니다.
- 식사 만족도가 떨어지면 듣게 될 비난에 대한 걱정이 식사 품질이 떨어지는 것에 대한 억제 요인이 될 것입니다.
이러한 요인에 의하여 어떤 값으로 돌아가는 현상이 일어나는 것이고 돌아가는 과정을 "회귀"라고 부릅니다.
그렇다면 "한국인 20대 남성의 키가 주어졌을 때 몸무게 예측"에 대해서는 회귀를 어떻게 설명할 수 있을까요?
한국인 20대 남성의 키가 160cm인 경우 몸무게의 평균이 65kg이라고 가정합시다.
- 더 많이 먹거나 운동을 적게 하면 체중이 증가할 것입니다. 그러면 계단을 오를 때 호흡이 힘들어지고 몸매에 대한 주변의 시선에도 더 신경을 쓰게 되어서 체중 감량에 대한 압박을 받게 됩니다.
- 너무 적게 먹거나 운동을 많이 하면 체중이 감소할 것입니다. 영양 부족이나 불균형으로 인하여 건강이 나빠질 수도 있고 이 경우 역시 몸매에 대한 주변의 시선에 영향을 받아서 체중 증가를 위한 다양한 시도에 나설 가능성이 높아집니다.
생물학적, 또는 심리적 요인들이 작용하여 체중을 특정 값으로 돌아가게 하는 과정을 일으키며 그 결과로 특정 값을 중심으로 하는 분포가 나타납니다.
문제 유형 정의 측면에서 용어 정리
어딘가로 돌아가는 특성을 보이는 문제를 다른 용어를 사용하여 정의해 볼 수 있습니다.
- 예: 상관 관계 분석 (결과에 초점)
상관 관계 분석이 회귀 분석이라는 용어를 완벽하게 대체할 수 있을까요? 또는 더 적절한 용어가 될 수 있을까요?
저의 의견을 정리하자면 다음과 같습니다.
- 회귀 문제는 어디에 초점을 맞추느냐에 따라 문제 풀이 방식이 달라진다.
- 요인과 이로 인해 나타나는 결과에 초점을 맞추면 인과 관계 분석
- 과정에 초점을 맞추면 역학
- 결과로 나타나는 특정 분포의 변수들 간 상관 관계에 초점을 맞추면 상관 관계 분석 (또는 회귀 분석)
- 회귀라는 용어의 의미는 문제 유형 정의 측면에서 상관 관계 분석이 다루는 문제의 범위보다 넓다.
- 회귀: 문제 유형 정의할 때 적합한 용어 (상관 관계 분석이 다루는 문제의 범위보다 넒음)
- 상관 관계 분석: 결과로 나타나는 특정 분포의 변수들 간 상관 관계를 분석할 때 적합한 용어
- "회귀 분석"과 "상관 관계 분석"을 동일한 의미로 사용하는 것이 보편화되어 있긴 하지만 용어의 의미를 고려하면 "상관 관계 분석"이라는 용어가 더 적합
Written with StackEdit.