To love
상관분석 본문
기초통계학은 크게 2가지의 분석 기법으로 나누어 볼 수 있습니다.
한 자료에서 모집단이 몇 개 있느냐 연구자의 입장에 따라 바라보는 통계학과,
한 변수와 다른 변수들 간 관계가 무엇인지 탐구하는 통계학입니다.
전자의 대표적인 예시가 두 집단 평균 차이 검정, 또는 분산분석이고,
후자의 대표적인 예시는 상관분석과 회귀분석입니다.
1. 산점도
좌표평면은 데카르트라는 학자의 위대한 발명품입니다. 숫자들로만 표현된 자료를 그림으로 바꾸어 표현하는데 유용하게 사용된다는 점에서 위대합니다. 데이터를 점으로 표현하여, 점이 퍼저있는 그림을 그린 것을 산점도라고 합니다. 상관분석 이전에 반드시 산점도를 작성해야 합니다.
상관계수를 구하는 목적이 상관계수라는 숫자 이전에 두 변수 간 관계에 관심이 있기 때문입니다. 상관계수라는 숫자는 두 자료의 관계를 잘 표현해주지만, 두 자료의 선형관계가 있는지 없는지 그 강도는 얼마인지만 표현이 가능합니다.
2. 피어슨 상관계수
일반적으로 상관계수라고 불리는 피어슨 상관계수를 살펴보면 이유가 납득이 갑니다. 피어슨 상관계수는 수학적으로, 두 자료가 함께 변하는 정도를 두 자료가 각각 변하는 정도로 나눈 것입니다. 자료의 변하는 정도는 얼마나 자료가 다양하게 바뀌는지로 생각할 수 있고, 통계학에서 다양성의 정도는 퍼져있는 정도를 수치화 한 것인 분산으로 알 수 있습니다. 다른 말로 하면, 상관계수란 단위를 고려하여 공분산을 각각의 분산으로 나누어 표현한 것입니다.
피어슨 상관계수는 수학적 성질에 의해, -1과 1사이의 값을 가지며, 0인 경우 선형관계가 없다고 판단합니다. 절댓값이 커질수록 두 변수의 선형관계의 강도가 강하다고 판단합니다. 값이 양수인 경우, 한 자료의 값이 증가할 때, 다른 자료의 값도 증가하는 경향성이 있다고 봅니다. 음수일 떄는 반대로 생각합니다.
피어슨 상관계수에는 아주 까다로운 대전제가 있습니다. 각각의 변수의 모집단이 정규분포를 따를 것이라는 가정입니다. 만족하기 어려운 가정이면서, 많은 사람들이 간과하고 사용하는 가정입니다. 이 가정을 만족하지 않을 떄 ‘스피어만 상관계수’라는 다른 상관계수를 고려해 볼 수 있습니다. 이는 추후 비모수 통계학에서 다루겠습니다.
3. 크론바흐 알파
설문지를 해 본 사람이라면, 문항 당 1~5번까지 선택할 수 있는 객관식 질문지를 받아본 경험이 있으리라 믿습니다. 이를 총화평정척도 또는 리커트 척도라고 합니다.
측정하고자 하는 현상을 얼마나 일관성 있게 측정했는가를 신뢰도라고 합니다. 신뢰도는 설문조사의 질 및 목적과 직결되는 개념으로, 동일한 개념에 대해 반복 측정 했을 때 측정값이 동일한가를 표현합니다.
리커트척도의 신뢰도는 크론바흐 알파로 표현할 수 있습니다. 크론바흐 알파는 상관계수 개념에서 힌트를 얻어 만든 응용 개념입니다. 크론바흐 알파는 0~1 사이의 값을 가지며, 0.6 이상이면 신뢰도가 있다고 판단합니다. 또한 문항간 평균 상관관계가 증가할수록, 문항의 수가 증가할수록 증가합니다.