To love
모집단과 표본 본문
산업혁명 이전, 영국 런던은 몇몇 귀족들의 대저택과 정원이 다수 면적을 차지했습니다. 산업혁명 이후 이곳에는 많은 변화가 생겼죠. 사회변화에 따라 많은 사람이 시골 농민에서 도시노동자가 되면서 붐비기 시작합니다. 초기 산업혁명의 특징 중 하나는 값싼 노동력이었습니다. 돈없는 노동자들은 좁은 공간에 몰려살게 되었고, 그 결과 환경이 오염되고 전염병이 유행합니다.
영국의 고귀하신 귀족들은 자신들의 환경을 보호하기 위해 전염병의 원인을 알아낼 필요를 느낍니다. 배수, 공기 등 여러가지 환경요인들에 대한 조사가 필요했던 그들은 막대한 자본을 투입해 조사회사를 설립합니다. 이 때 많은 조사회사들이 설립됩니다.
조사회사들은 전수 조사를 통해 전염병의 원인을 알아내려고 애썻고, 그 중 일부 연구는 성공합니다. 이후 다른 여러가지 문제를 해결하기 위해 점점 조사항목과 범위가 늘어갔습니다. 따라서 회사들은 더 많은 자본이 필요하게 되었고, 어느 순간부터는 소수귀족이 감당할 수 없는 지경이 되었죠. 극소수를 제외한 회사들은 망했고, 이 조사 시스템을 대체할 필요성을 느끼게 되었습니다.
이후 여러 학자들은 치열하게 아래 질문들에 대한 논의를 시작하게 됩니다.
전체가 아닌 일부만 조사하면 어떨까?
그게 의미가 있을까?
의미가 있으면 얼마나 있을까?
이러한 질문들이 현대 추측 통계학의 핵심 주제가 되었습니다. 표본조사와 추정, 신뢰수준의 핵심개념이 이러한 배경에서 출발합니다.
추측통계학은 이러한 필요성에 의해 탄생하였고, 필요성에 따라 여러가지 개념들을 만들게 됩니다. 이번 글에서는 위에 언급한 3가지 질문중 첫번쨰 질문. '전체가 아닌 일부만 조사하면 어떨까?'라는 질문에 의해 탄생하게 된 여러 개념들을 자세히 살펴보겠습니다. 전체는 무엇이고, 일부는 무엇이며, 조사는 어떻게 해야 좋을지..
전체에 관련된 개념으로는 모집단, 모수가 있고, 일부에 관련된 개념으로는 표본, 통계량이 있으며, 조사의 방법으로는 학문 분야 여러개가 관련되어 있습니다.
모집단이란 어려운 말로 하면 연구 대상이 되는 모든 개체들의 집합입니다. 이게 뭔말일까요. 통계학을 영어로 하면 statistics인데, 이 말은 state에서 유래되었습니다. 고대 로마시대부터 세금의 문제, 병역의 문제 등과 같이 국가(state)의 정책에 있어서 통계 작성이 중요하게 여겨졌습니다. 세금이나 병역 등 많은 중요한 문제가 인구(population)과 연관이 있었기에 결국 최종 관심사는 인구가 되었습니다. 모집단을 영어로 하면 population이고, 내가 관심가지는 문제의 대상을 의미합니다.
시간이나 비용의 문제를 해결하기 위해, 통계학자들은 모집단의 일부를 선택하여 데이터를 수집한 다음, 일부 자료에 담긴 정보를 기초로 모집단의 성질을 유추하는 방법을 고안합니다. 이러한 목적으로 선택된 모집단의 일부를 표본(sample)이라고 합니다.
모집단과 표본을 다시 한자로 해석해 보죠. 모집단은 어머니집단이란 뜻으로, 표본이 원래 속한 집단을 나타냅니다. 표본은 뿌리를 나타낸다는 뜻으로 모집단을 표현하는 것이라는 뜻이죠.
모집단이 산이라면, 산에 있는 나무 몇 그루를 표본으로 뽑아서 그 산의 모습을 유추하게 됩니다. 어쩌면, 소나무가 많은 산에서 은행나무 몇 그루만 뽑아서 그 산이 은행나무로만 덮여있다는 착각을 할 수도 있습니다. 그래서 통계학은 잘못 판단할 위험을 줄이기 위해 표본의 대표성을 무지하게 신경쓰게 됩니다.
사회과학에서 표본을 뽑는 주된 방식은 조사이고, 자연과학에서는 실험입니다. 사람을 대상으로는 조사를 많이하고, 자연적인 현상에 대해서는 실험을 많이 하죠. 표본을 어떻게 하면 적게 뽑으면서 대표성을 가지게 할까를 연구하는 학문이 2개 탄생하게 되는데, 표본조사방법론과 실험계획법이 그것입니다. 난이도가 꽤 되므로, 관심있으신 분은 다른 강의로 더 깊이 공부해 보시면 좋을 듯 합니다. (두 과목 모두 많은 통계학과의 전공 커리큘럼에 졸업 필수 이수 과목으로 들어갑니다.)
다시 용어 설명으로 돌아가겠습니다. 모집단의 특성을 나타내는 수를 모수라고 하고, 이에 대응되어 표본의 특성을 나타내는 값을 통계량이라고 합니다. 예를 들어, 대전시민 20대 남자 평균키에 관심있는 연구자의 입장에서, 대전시민 20대 남자 전체의 평균키가 모수라면, 대전시민 20대 남자 중 3만명의 평균키는 통계량입니다.
수학적인 표현을 살펴보죠. 모수는 중요하다는 의미에서 그리스어 문자로 표기합니다. 예를 들어, 모집단의 평균은 μ, 모집단의 표준편차는 σ로 표기합니다. 반면, 통계량은 주로 알파벳으로 표기합니다. 통계학과 출신의 사람들도 이것을 자주 혼동합니다.
이상으로 모집단과 표본의 개념과 용어정리를 마치겠습니다.
다음 글부터는 본격적으로 기술통계학을 시작하도록 하겠습니다.