To love

변수의 의미와 종류 본문

통계학 /기술통계

변수의 의미와 종류

Student9725 2018. 8. 13. 18:28

많은 통계학 교과서에서 처음 등장하는 개념은 '변수'입니다. 

변수란 우리가 연구, 조사, 관찰하고 싶은 대상의 특성입니다. 

그런데 이런 개념을 왜 약속할까요?


변수라는 말에 그 의미가 있습니다. 그대로 변하는 수라는 뜻이고, 영어로 하면 variable 입니다.

vary가 다양하다는 뜻이니, able과 함께 생각해보면 다양할 수 있는 수, 다양하게 변하는 수라고 생각이 되네요. 이전 글에서 통계학은 다양성(불확실성)의 문제를 다루고 해결책을 제시하는 학문이라고 했습니다. 다양성을 다루기 위해서는 먼저 다양성을 어떤 형태로든 표현해야겠죠. 이것이 변수인 것입니다.


변수의 예로는 사람의 종교, 혈액형, 성별, 오늘의 최고기온, 일년간 교통사고의 수 등이 있습니다. 종교라는 말은 불교, 기독교, 천주교, 등등의 다양함을 내포하고 있고 , 일년간 교통사고의 수는 0회, 1회, 2회, 3회.....의 다양함을 내포하고 있습니다.


다양함의 종류에 따라 통계학의 분석방법이 달라집니다. 그래서 변수를 종류별로 나눠서 구분해야 할 필요가 생깁니다. 변수는 크게 질적변수와 양적변수로 나누고, 질적변수는 다시 명목형 변수와 순서형 변수로, 양적변수는 다시 연속변수와 이산변수로 나눕니다. 자세한 구분 기준은 아래에서 설명하겠습니다.


질적변수는 뭘까요? 우리는 물건을 사면서 가끔 '품질이 좋다 혹은 나쁘다' 라는 말을 합니다. 여기서 질이라는 것은 본질을 말합니다. 왜 본질이란 말을쓰냐하면, 양적변수로 된 자료를 분석할 떄에는 여러가지 수학적 방법이 동원 할 수 있지만, 질적변수로 된 자료를 분석할 때에는 그럴 수 없기 떄문입니다. 수학을 못쓰니 있는 그대로 보여주거나 거의 변형 없이 보여줄 수 밖에요. 그래서 질적변수라는 말을 씁니다. 범주로서 보여준다는 의미에서 범주형 변수라고도 합니다.


질적변수에는 명목형과 순서형이 있다고 했는데요. 명목형은 이름을 기준으로 한 형태라는 뜻이고, 순서형은 순서가 있는 형태라는 뜻입니다. 둘의 차이는 질적 변수값의 순서가 있느냐입니다. 예를 들어 보겠습니다. 혈액형 A, B, AB, O형이나 종교 불교,기독교, 천주교를 생각해 보죠. 어느 것이 다른 것보다 가치가 뛰어나거나, 더 양이 많다거나... 크고 작음이나 높고 낮음의 정도가 없죠. 반면, 생활수준을 상,중,하로 표현한다거나 폐암의 진행단계를 1,2,3 단계로 나누어 보면, 이 변수들은 순서를 가지게 됩니다.


변수가 수량적으로 의미를 가질 때 양적변수라고 부릅니다. 순서형 변수와 무슨 차이일까요? 수량적으로 의미를 가진다는 말은 수학을 사용할 수 있다는 이야기입니다. 가장 쉬운 수학 연산자인 더하기로 예를 들어 보겠습니다. 


A병원에는 입원환자가 총 셋 있으며, 그 세명의 몸무게가 각각 65kg, 70kg, 75kg라고 합시다. 이 경우에 입원환자의 총 몸무게는 65 + 70 + 75 = 210kg이 됩니다. 또 각각의 병 진행단계가 폐암2단계 , 2단계, 1단계라고 하죠. 그렇다면 환자의 총 병 진행단계는 2 + 2 + 1 = 5단계 라고 말하기는 힘들것입니다. 이처럼 수학이 의미가 있는 것이 양적 변수입니다.


오늘 전화통화횟수를 변수로 본다면 0회,1회,2회,...등의 숫자로 표현할 수 있을 것입니다. 이러한 변수를 떨어져 있는 숫자로 구성되어 있다는 의미에서 이산형 변수라고 합니다. 반면 키를 생각해보죠. 키는 168.7723453cm , 168.77234531cm 처럼 아주 가까운 수치로 표현이 가능합니다. 이처럼 연속된 것처럼 보이는 숫자들 또한 통계학에서는 주로 연속되었다고 생각합니다. 어려운 말로는 실수값을 가진다고 하죠. 연속되어 있는 수치를 가지는 변수를 연속형 변수라고 합니다. 


모든 변수에 대해 설명이 끝났습니다. 마지막으로 주의할 점이 하나 있습니다. 변수의 종류는 항상 칼로 두부자르듯이 나눠지는 게 아닙니다. 변수의 종류는 항상 정해져 있는 것이 아니고 연구자의 관점에 따라 달라지기도 합니다. 예를 들어 생활만족도를 0점~100점으로 조사하였는데 97.5점과 같은 응답이 많다면 생활만족도를 연속형 양적변수로 보는 것이고, 상중하로 조사한다면 순서형 질적변수로 볼 수도 있는 것입니다. 


나름 쉽게 설명하려 노력했지만, 변수는 제가 수업을 여러번 듣고, 고민을 정말 많이해도 항상 어려운 개념입니다. 추상적인 개념이며, 뒤에 나오는 변수별 분석방법을 먼저 살펴봐야 왜 변수를 정의하고 이렇게 나눠야만 했는지 이해가 될 정도니까요.


복습하겠습니다. 이전글과 이글 도입부에서 말했듯이, 우리는 다양한 값을 가지는 것을 변수로 두고 조사, 분석해야 합니다. 예를 들어, 통계학과 사무실에서 통계학과 소속 학생에게 "당신은 통계학과 학생입니까?"라는 질문이 있는 조사를 하는 것은 아무 의미가 없겠죠. 모두 다 '네'라고 대답할 것이기 떄문에, 답변의 다양성이 없는 질문이기 떄문입니다.


실제로 데이터를 분석할 때, 내가 관심있는 현상을 표현하는 변수가 어떤 변수이고, 내가 가진 자료에서 변수가 몇 개 있는지 파악하는 일이 가장 중요합니다. 각각의 변수가 어떤 변수인지 그 종류와, 자료가 가진 변수의 수에 따라 분석방법이 달라지기 떄문이죠.


이 글을 마치며, 각자 자신이 관심있는 현상의 중요한 변수들이 무엇이 있을지 생각해보고, 분류해 봅시다. 만약 자신이 분식집을 내려고 한다면 라면값이나 월세, 주변 가게의 수 등을 중요한 변수로 보겠죠. 


다음 글에서는 본격적으로 분석방법을 하나하나 자세히 다루도록 하겠습니다.

Comments