To love

변수의 갯수와 분석방법 본문

통계학 /기술통계

변수의 갯수와 분석방법

Student9725 2018. 8. 15. 23:18

이전 글 '변수의 의미와 분류'에서 변수의 종류에 대해서 배웠습니다.


변수는 크게 양적변수와 질적변수가 있다고 했고, 

둘의 차이는 수학을 쓸 수 있느냐 없느냐 여부라고 했습니다.


하나의 변수를 가진 자료를 일변수(또는 일변량) 자료라고 합니다. 

변수가 2개 이상이면 다변량 자료라고 합니다. 


자료의 형태에 궁금증을 갖는 이유는 자료가 어떤형태냐 변수가 뭐냐에 따라

기술통계 방법이 달라지기 떄문입니다.


이제 각각의 변수의 갯수와 종류에 따라 분석방법을 나열하고, 

하나씩 차근차근 설명하겠습니다.


변수가 1개인 경우


변수가 질적이라면, 원 그래프와 막대 그래프를 그립니다.

변수가 양적이라면, 빈도표와 히스토그램, 분위수와 상자그림을 이용하거나 변수의 특징을 나타내는 숫자로 요약을 사용합니다. 


변수가 2개인 경우


변수가 2개인 경우는 그래프를 그리거나 요약을 하는 목적이 변수가 하나인 경우와는 다릅니다. '두 변수간의 관계가 뭐야?'라는 질문에 중점을 두고 요약을 하게 됩니다.


변수 2개가 모두 질적이라면, 교차표를 그립니다.

변수 2개가 모두 양적이라면, 산점도를 그립니다.

변수 2개가 하나는 질적변수, 하나는 양적변수로 구성되어 있다면, 



기술통계학의 시작은 빈도표와 히스토그램입니다.








정육면체 주사위를 던져서 윗면에 나온 수를 관찰하여 데이터를 얻었습니다.


1 2 4 2 2 6 3 5 6 3


자료의 값이 반복되는 것이 있네요. 반복이 몇번 되었는지 그 횟수를 도수라고 합니다. 어린시절 한 번쯤은 다들 들어보셨을 겁니다. 도수는 수를 헤아린다는 의미인데, 저는 이말보다는 반복횟수를 뜻하는 빈도라는 표현을 더 좋아합니다. 도수를 앞으로는 빈도라고 표현하고, 도수분포표는 빈도표라고 부르겠습니다.


위의 데이터에서, 2는 3번 반복되었고 3은 2번 반복되었으므로 2의 빈도는 3이고, 3의 빈도는 2죠. 자료의 값과 빈도를 함께 정리한 표를 빈도표라고 합니다.


위의 데이터를 빈도표로 나타내면 다음과 같습니다.


 주사위의 눈 

빈도 

 1

 1 

 2

 3 

 3

2

 4

 1 

 5

 1 

 6

 2 



자료의 관측값의 갯수가 많고, 서로 다른 관측값들이 많은 자료는 관측값 하나하나와 빈도를 대응시켜서 빈도표를 작성하기가 힘듭니다. 예를 들어, 대한민국 사람들의 나이에 관한 데이터가 있다고 하면, 20세 미만, 20세 이상 40세 미만, 40세 이상 60세 미만, 60세 이상 80세 미만, 80세 이상과 같이 구간을 나누는 것이 좋습니다. 만약 1세 30만명, 2세 29만9천5백명, ...... , 110세 9명 이런식으로 110개의 칸을 가진 표를 그리려면 표 그리기도 힘들고, 자료가 대체 뭘 말하고 싶은건지 한 눈에 알아보기 어렵기 떄문입니다.


구간을 나누는 기준에 대해 공식이 있기는 하지만, 국제적인 표준은 아니기에 생략하겠습니다.





Comments