To love

통계학의 의미와 분류 본문

통계학 /기술통계

통계학의 의미와 분류

Student9725 2018. 8. 11. 14:51

많이 더운 것 같은데 왜 온도가 저것밖에 안되지?

물가가 많이 오른 것 같은데 정부의 물가상승률 발표는 왜 저래?

기상청의 통계는 맞는 적이 없어. 매번 틀리자나.


통계학과 학부생인 저도 저런말을 자주하니, 

실생활에서 통계는 부정적인 이미지로 많이 사용되는 것 같습니다. 

심지어, <새빨간 거짓말, 통계>라는 제목의 책까지 있을 정도라니까요.


그렇다면 통계는 정말 믿을 수 없는 것일까요?

통계를 다루는 통계학은 또 무엇일까요?

통계와 통계학은 같은 것일까요?


1. 통계학이란 무엇일까요? 

아래는 교과서와 교양서 속 통계학의 의미입니다. 

통계학이란 어떤 결론을 얻기 위해 자료를 수집하고, 정리 요약하는 방법이다. 

- 통계학 입문, 정문사

어느 집단에 대한 경향이나 특징을 알기위해 관측, 조사, 실험한 결과를 숫자나 문자로 나타낸 것이 통계이다. 데이터를 얻는 방법과 그 통계를 분석하는 방법을 통계학이라 한다.

- 그림으로 설명하는 개념 쏙쏙 통계학, 성안당

통계학은 조사나 실험을 통해 얻은 데이터를 바탕으로 알지 못하는 것에 대해 추론하는 학문이다.

- 통계학 빅데이터를 잡다, 한국문학사

쉽게 표현하면 데이터를 잘 얻어서, 잘 정리하고, 이걸 써먹어서 예측하는 방법이라고 생각되는군요.

그렇다면 우리는 왜 이런 번거로운 작업을 할까요? 그냥 대충, 직관적으로 판단하면 편한데 말이죠.
이런 작업은 도대체 뭐하는데 써먹을까요?

2. 통계학의 목적

사실, 통계는 연구자들의 욕망을 충족시키기 위해 쓰입니다. 
자신의 주장을 맞다고 하기 위한 근거를 대는데 종종 유용한 도구로 이용되곤 합니다.

.........

연구자들을 위한 농담이었구요. 사실 이 질문은 우리가 안다고 생각하는 것이 진짜 알고 있는 것인지에 대한 인식론과 회의주의, 경험주의 등 오랜 철학적 논제와 맞닿아 있습니다. 철학적인 내용이 궁금한 분들도 계시겠지만, 분량이 방대하므로 위해 이것들은 다른 글에서 따로 언급하겠습니다.

많은 분들은 난해한 철학적 배경 따위에는 관심이 없으리라 예상합니다.
우리 대부분은 통계를 실생활에서, 비즈니스를 위해 쓰는 경우가 많지요.

이해를 돕기 위해 구체적인 예를 생각해 보겠습니다.

저희 이모는 도시락을 납품하는 일을 하고 계세요. 주로 회사나 공공기관이 단체로 주문하는 일이 많다고 하네요. 
평소에는 도시락이 하루 평균 500개 정도씩 판매되는데, 회사 운동회가 있는 날은 도시락이 1500개까지 판매된 적이 있다고 하시네요. 

이모가 새로 도시락 공장을 만드시려 하는데, 도시락 공장의 규모가 어느정도 되는 것이 좋을까요? 
공장은 하루에 도시락을 몇개까지 생산할 수 있어야 할까요?

500개를 생산할 수 있는 공장이 제일 효율적이겠지만, 만약 1500개 주문이 들어오는 날은 대처할 수 없겠죠. 
1500개를 생산할 수 있는 공장을 짓는다면, 평소에는 공간이나 가동비용의 낭비가 심하지 않을까요?

마찬가지로 옷을 만드시는 분들은 어떤 사이즈의 옷을 얼마나 만들어야 가장 낭비없이 잘 팔릴까가 고민일테고, 김치 이용한 음식을 파시는 분들은 고춧가루의 양이 얼마나 들어가야 맛있는 김치가 될까 궁금할 꺼에요.

이런 고민들을 하는 근본적인 원인은 이 현상이 가지고 있는 '다양성'과 '불확실성' 떄문입니다.

모든 사람의 키가 170cm이고, 몸무게가 60kg이라면 옷을 만들 떄 사이즈를 고민할 필요가 없겠죠. 하지만 사람마다 키와 몸무게가 다르고, 체형이 다르기 때문에 어느 사이즈를 얼마나 만들어야 할지 고민을 하는거죠. 

현재까지 다양성과 불확실성에 가장 잘 대처할 수 있는 도구가 통계학입니다.

그렇다면 통계학은 불확실성에 어떻게 대응할까요? 이를 이해하기 위해 먼저 통계학의 분류를 살펴볼게요.
(다양성과 불확실성을 같다고 보고, 앞으로 불확실성만 언급할게요)

3. 전통적인 기초 통계학의 두 종류 - 기술통계학과 추측통계학

대부분의 교과서에서, 통계학은 크게 기술통계학과 추측통계학으로 나뉩니다. 

먼저, 기술통계학은 이름 그대로 기록하고 서술하는 통계를 말합니다. 표나 그래프를 사용하여 수집된 자료를 표현하고, 평균이나 표준편차 등으로 자료의 특징을 찾아내는 일입니다. 자료를 영어로 하면 data인데, 이 말은 원래 라틴어에서 온 것이라고 합니다. '주어진 것'을 뜻하는 'datum'이라는 단어의 복수형이에요.  기술통계학이란 '주어진 것(자료)을 표, 그래프, 숫자 등으로 이쁘게 표현한 것' 이 되겠네요.

그렇다면 추측통계학은 뭘까요? 이름 그대로 추측, 현재의 상태를 생각해보거나 미래를 예측하는 일을 하는 통계학을 말합니다. 생각해보면 좀 이상합니다. 미래 예측은 그렇다 치더라도 현재의 상태는 왜 궁금해하냐. 

바로 '전체를 파악할 수 없을 정도의 큰 대상'의 경우가 있기 떄문입니다. 

2016년 겨울, 많은 시민들이 광화문 광장에서 촛불을 들었습니다. 언론에서는 시위에 참여한 시민의 숫자에 크게 관심이 있었습니다. 거의 매 집회마다 경찰측과 주최측의 인원추산은 차이가 꽤 있었고, 누구의 주장이 맞는지 갑론을박이 있었습니다. 그런데 한두명도 아니고 그 많은 시민들을 어떻게 세었을까요? 

바로 이 때 이용한 것이 통계적 추정입니다. 추정이란 표본의 특징을 바탕으로 모집단을 파악하는 일입니다. 집회장소 일정 면적에 있던 시민 수를 파악하여 집회장소 전체 면적의 시민 수를 예상해본 것입니다.  

불확실성을 다루기 위해 통계학은 먼저 기술통계를 작성하여 현재 알고있는 것을 파악해보고, 이를 바탕으로 추측통계를 사용하여 모르는 것을 예상해 보라고 합니다.

4. 앞으로 기대할 수 있는 이야기들

앞으로 기술통계와 추측통계에 있는 여러가지 개념을 하나씩 자세하게 관찰해볼 겁니다.
수식보다는 인문학적인 직관에 기반해서 말이죠.

다음글에서는 여러가지 현상에 있는 불확실성, 다양성을 어떻게 표현하는지에 대해 설명 하겠습니다.

교양서 '벌거벗은 통계학'에 나온 통계학을 배우는 이유를 언급하며 이 글을 마칩니다. 

- 방대한 양의 데이터를 요약하기 위해서.
- 보다 나은 의사 결정을 위해서.
- 중요한 사회적 질문에 대답하기 위해서.
- 기저귀 판매부터 범인 검거에 이르기까지 일을 보다 잘할 수 있는 패턴을 알아보기 위해서.
- 사기꾼을 잡고 범인을 기소하기 위해서.
- 정책, 프로그램, 약, 의료 처치, 기타 혁신의 효과를 높이기 위해서.
- 비윤리적인 목적을 위해 이런 강력한 도구를 이용하는 악당을 발견하기 위해서.










Comments