기본 콘텐츠로 건너뛰기

회귀(Regression)라는 용어를 쉽게 설명하는 방법

회귀(Regression)라는 용어를 쉽게 설명하는 방법

조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다.

조별 단체 식사 준비와 회귀 현상 발생

100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다.

  1. 10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다.
  2. 한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다.
  3. 오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다.
  4. 내가 속한 조에서는 몇 주 후에 담당할 식사 준비를 두고 약간의 걱정 섞인 농담이 오고간다.
    • “우리는 컵라면을 고려하고 있었는데 이러면 컵라면을 내놓기는 어렵겠는데요.”
    • “이 시점에서 컵라면으로 식사 기대치를 좀 낮추는 것도 필요하지 않을까요?”
    • “여러 종류의 컵라면을 준비하고 밥과 김치를 함께 제공하면 나름대로 괜찮을 겁니다.”

위의 사례에서처럼 식사 품질이 무한히 상승하거나 하강하는 것을 억제하는 작용들이 일어나서 결국 어떤 지점을 중심으로 들쭉날쭉하는 모습을 보일 것이며 이에 대해 다음과 같이 말할 수 있습니다.

  • 식사 품질이 어떤 지점으로 돌아가는 현상을 가리켜 회귀라고 한다.
  • 회귀가 지속적으로 일어나면 경향성을 가지고 있는 것으로 간주한다.
  • 회귀 지점이 어디인지를 찾는 것을 회귀 문제를 푼다라고 말한다.

회귀라는 용어가 어렵게 느껴지는 이유

'회귀’의 사전적 의미는 '돌아간다’입니다. 그런데 '회귀 문제’라고 부르는 특정 유형의 문제를 좀 더 세부적으로 설명하는 아래의 내용을 보면 여러 변수들 간의 상관 관계를 다루는 문제라고 말할 수 있습니다.

대표적인 회귀 문제 유형으로 다음 두 가지를 들 수 있습니다.

  1. 선형 회귀 (X 값이 주어졌을 때 Y 값의 예측)
    • 예시 1: 한국인 20대 남성의 키가 주어졌을 때 몸무게 예측
    • 예시 2: 한국인 50대 여성의 몸무게와 러닝머신 속도가 주어졌을 때 심박수 예측
  2. 로지스틱 회귀 (X 값이 주어졌을 때 어떤 범주에 속하는지 예측)
    • 예시 1: 대출 신청자의 신용 점수, 연 소득, 부채 비율, 직업, 대출 금액이 주어졌을 때 대출 승인 여부 예측
    • 예시 2: 생산 공정 중의 센서 데이터(온도, 압력 등), 사용된 원자재 정보, 생산 라인, 작업 시간이 주어졌을 때 제품 품질 불량 여부 예측

결국 독자는 자신이 알고 있는 사전적 의미인 '돌아간다’를 토대로 통계에서 왜 그러한 용어를 쓰는지 이해해 보려고 노력하지만 명확하게 이해하는데 어려움을 겪게 됩니다. 이로부터 통계에서 만나는 회귀라는 용어가 어렵게 느껴질 수밖에 없는 이유를 유추할 수 있습니다.

  • 회귀라는 용어는 어떤 요인이 작용하여 특정 분포가 나타나는 과정의 특성을 지칭함
  • 회귀 분석은 어떤 요인이 작용하여 돌아가는 현상이 나타난 결과, 즉 특정 분포의 특성을 분석하는 데 초점을 맞추고 있음

따라서 용어 이해의 어려움은 문제 유형 정의를 위해 사용한 용어와 문제를 풀 때 사용하는 용어가 담고 있는 의미들 간의 간극에서 온다고 말할 수 있습니다.

회귀라는 용어를 쉽게 설명하는 방법

하지만 아래와 같은 설명으로 시작하면 '회귀’라는 용어가 어렵거나 낯설게 느껴지지 않을 것입니다.

어떤 값들이 특정 값을 중심으로 모여 있는 분포를 보인다면 그러한 결과가 나타나게 하는 요인이 있을 것입니다. 위에서 예로 든 단체 식사 준비와 관련해서는 다음 두 가지 요인이 작용한다고 볼 수 있습니다.

  1. 식사 준비 비용과 구성원의 노고에 따르는 부담은 식사 품질이 무한히 상승하는 것을 억제할 것입니다.
  2. 식사 만족도가 떨어지면 듣게 될 비난에 대한 걱정이 식사 품질이 떨어지는 것에 대한 억제 요인이 될 것입니다.

이러한 요인에 의하여 어떤 값으로 돌아가는 현상이 일어나는 것이고 돌아가는 과정을 '회귀’라고 부릅니다.

그렇다면 "한국인 20대 남성의 키가 주어졌을 때 몸무게 예측"에 대해서는 회귀를 어떻게 설명할 수 있을까요?

한국인 20대 남성의 키가 160cm인 경우 몸무게의 평균이 65kg이라고 가정합시다.

  1. 더 많이 먹거나 운동을 적게 하면 체중이 증가할 것입니다. 그러면 계단을 오를 때 호흡이 힘들어지고 몸매에 대한 주변의 시선에도 더 신경을 쓰게 되어서 체중 감량에 대한 압박을 받게 됩니다.
  2. 너무 적게 먹거나 운동을 많이 하면 체중이 감소할 것입니다. 영양 부족이나 불균형으로 인하여 건강이 나빠질 수도 있고 이 경우 역시 몸매에 대한 주변의 시선에 영향을 받아서 체중 증가를 위한 다양한 시도에 나설 가능성이 높아집니다.

생물학적, 또는 심리적 요인들이 작용하여 체중을 특정 값으로 돌아가게 하는 과정을 일으키며 그 결과로 특정 값을 중심으로 하는 분포가 나타납니다.

정리

'상관 관계 분석’이 '회귀 분석’이라는 용어를 완벽하게 대체할 수 있을까요? 또는 더 적합한 용어가 될 수 있을까요?

질문에 답하기 위하여 각각의 용어가 가지고 있는 의미를 최대한 살려서 아래와 같이 표현해 보았습니다.

  • 회귀 현상: 어딘가로 돌아가는 특성을 보이는 현상
  • 회귀 문제: 회귀 현상과 관련된 문제들을 지칭
    • 현상의 원인과 결과 간의 관계에 초점을 맞추면 인과 관계 분석 문제
    • 현상이 일어나는 과정에 초점을 맞추면 역학 문제
    • 현상의 결과인 특정 분포에서 변수들 간의 상관 관계에 초점을 맞추면 상관 관계 분석 문제

결론적으로,

  • ’회귀 분석’ 대 ‘상관 관계 분석’:
    • 하나의 문제 유형을 지칭하는 두 가지 용어로 쓰이고 있음
    • 해당 문제의 특성, 그리고 각각의 용어 자체의 의미를 고려하면 '상관 관계 분석’이라고 부르는 것이 더 적합
    • '회귀 분석’이라고 부르면 넓은 범위에 해당하는 용어를 사용하여 좁은 범위의 문제를 지칭할 때 발생하는 인지 부조화 상태 초래

Written with StackEdit.

댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...