목록통계학 (10)
To love

1. 선형회귀분석에 관한 이해 통계학의 주 된 관심사는 어떤 현상에 내재된 다양성 또는 불확실성입니다. 통계학 입문 교과서 맨 앞에서는 다양성을 표현하기 위한 한 형태로 ‘변수’라는 개념을 약속합니다. 두 개 이상의 변수가 존재할 때, 이 변수들간의 관계에도 관심을 가지게 됩니다. 각각의 변수들이 수량형인지 범주형인지에 따라 다양성의 형태가 달라지므로 분석 방법도 달라집니다. 많은 책들이 두 변수간의 관계를 서술하기 시작하면서 갑자기 X와 Y라고 이름 붙이고 시작하는 이유는 이를 명확하게 구분하기 위함이 아닐까 합니다. 회귀분석이란 데이터를 통해 Input변수(X)를 기반으로 output변수(Y)의 값을 알아내고자 하는 통계적 모델을 만드는 것과 관련이 있습니다. Input변수를 기반으로 output변수..
기초통계학은 크게 2가지의 분석 기법으로 나누어 볼 수 있습니다. 한 자료에서 모집단이 몇 개 있느냐 연구자의 입장에 따라 바라보는 통계학과, 한 변수와 다른 변수들 간 관계가 무엇인지 탐구하는 통계학입니다. 전자의 대표적인 예시가 두 집단 평균 차이 검정, 또는 분산분석이고, 후자의 대표적인 예시는 상관분석과 회귀분석입니다. 1. 산점도 좌표평면은 데카르트라는 학자의 위대한 발명품입니다. 숫자들로만 표현된 자료를 그림으로 바꾸어 표현하는데 유용하게 사용된다는 점에서 위대합니다. 데이터를 점으로 표현하여, 점이 퍼저있는 그림을 그린 것을 산점도라고 합니다. 상관분석 이전에 반드시 산점도를 작성해야 합니다. 상관계수를 구하는 목적이 상관계수라는 숫자 이전에 두 변수 간 관계에 관심이 있기 때문입니다. 상관..
1. 오컴의 면도날 어떤 현상을 설명할 떄, 그 설명이 너무 복잡하면 머리에 쥐가 나기 마련입니다. 설명을 간단하게 하는 것, 또는 가정을 적게하는 것이 장떙이라는 '오컴의 면도날'이라는 이론이 있습니다. 오컴은 한 논리학자의 이름이고, 면도날은 필요하지 않은 가설을 잘라버린다는데서 유래했다고 합니다. 예를 들어, 새까맣게 그을린 나무가 있다고 가정하자. 이는 나무가 벼락에 맞았기 때문이거나, 아니면 누군가가 어떤 장치를 이용해서 나무가 완전히 잿더미로 변하지 않도록 적절히 그을린 다음 자신이 그을렸다는 흔적을 완전히 없앤 것일 수도 있다. 이 상황을 판단할 다른 증거가 없는 경우 오컴의 면도날을 적용해 본다면, 나무가 그을린 것은 벼락에 맞았기 때문이라고 추론하는 것이 옳다. 왜냐하면, 나무가 벼락에 ..
1. 통계적 모형(대표값과 편차) 이전 글에서 사실을 특정한 입장으로 바라 볼 수 있듯, data를 model로 바라볼 수 있다고 이야기 하였습니다. Data가 몇 개의 모집단에 속해있는지 바라보는 관점은 수학적으로 ‘대표값’이라는 용어와 ‘편차’라는 용어로 표현됩니다. 편차는 각각의 개체가 자료의 중심인 대표값으로부터 떨어진 거리를 말합니다. Data = 대표값 + 편차 예를 들어, 대한민국 20대 남성인 철수의 키가 175cm이고, 대한민국 남성 평균 키가 170cm, 대한민국 20대 평균 키가 165cm, 대한민국 사람 평균 키가 163cm라고 알려져 있는 상황을 생각 할 수 있습니다. 이 때, 철수의 키 173cm 라는 사실을 = 대한민국 남성이기 떄문인 170cm + 철수 고유의 특성인 3cm로..
통계학의 여러 개념들을 만나면서 의문을 잔뜩 품게 되었습니다. 왜 이 개념은 이렇게 약속했지? 왜 이 개념은 이렇게 쓰일 수 밖에 없지? 다른 교양 과목을 수강하면서 가장 크게 들었던 의문은, 왜 통계학의 핵심개념들에는 통계학의 역사를 다루지 않지? 였습니다. 제가 처음에 마음에 가지고 있던 설명은 통계학이 100년도 채 되지 않을지도 모르는 역사가 짧은 학문이라는 것입니다. 그런데, 심리학의 경우 쌍대 대학원 입시 교재인 힐가드와 마이어스 책 개론 도입부에서 "현대 심리학은 1879년 독일 라이프치히에 빌헬름 분트가 실험실을 세운 것을 그 시작으로 본다" 라고 서술합니다. 심리학도 통계학과 역사의 길이가 크게 다르지 않은 것으로 알려져 있는데 말이죠. 특히, 가장 핵심 개념 중 하나인 가설 검정에 통계..
1. 사실과 입장 우리는 어떤 사건을 보면 그 사건을 하나의 입장으로 받아들이곤 합니다. ‘비가 30mm 내린다’는 사실을 ‘비가 많이 온다’는 입장으로 받아들입니다. 이러한 특성이 기초통계의 생각에 그대로 녹아나 있습니다. 일상생활에서 사실 fact를 표현하는 방식은 말과 글입니다. 이를 조금 더 구체화하기 위해 현상을측정하고, 그 과정에서 척도를 이용한다면 시각화 한다면, 표나 그래프, 숫자가 되겠지요. 사회조사분석사 시험의 개념에 따르면, 측정은 현상을 숫자로 표현하는 것이고, 척도는 숫자들을 체계화 시킨 것입니다. 통계학에선 사실을 고급진 용어로 data라고 합니다. 입장은 model, 다른 말로 분포라고 합니다. 어떤 사실이 어떤 입장을 따른다. 또는 어떤 사실이 어떤 입장에 부합한다. 라는 말..
이전 글 '변수의 의미와 분류'에서 변수의 종류에 대해서 배웠습니다. 변수는 크게 양적변수와 질적변수가 있다고 했고, 둘의 차이는 수학을 쓸 수 있느냐 없느냐 여부라고 했습니다. 하나의 변수를 가진 자료를 일변수(또는 일변량) 자료라고 합니다. 변수가 2개 이상이면 다변량 자료라고 합니다. 자료의 형태에 궁금증을 갖는 이유는 자료가 어떤형태냐 변수가 뭐냐에 따라기술통계 방법이 달라지기 떄문입니다. 이제 각각의 변수의 갯수와 종류에 따라 분석방법을 나열하고, 하나씩 차근차근 설명하겠습니다. 변수가 1개인 경우 변수가 질적이라면, 원 그래프와 막대 그래프를 그립니다.변수가 양적이라면, 빈도표와 히스토그램, 분위수와 상자그림을 이용하거나 변수의 특징을 나타내는 숫자로 요약을 사용합니다. 변수가 2개인 경우 변..
기술통계학을 시작하기 전에, '통계학의 의미와 분류'라는 글에서 언급했던 내용을 잠시 복습하고, 모집단과 표본에 대한 내용을 정리하고 가려고 합니다. 기술하려는 대상이 모집단인지 표본인지 명확히 알아야 어떻게 자료를 기록하고 서술하는 표현을 사용할지, 왜 그렇게 표현해야만 하는지 이해가 가기 떄문입니다. 추측통계학의 목적에 현재의 상태를 파악하는 일이 있다고 했고, '전체를 파악할 수 없을 정도의 큰 대상'의 경우를 생각해보았습니다. 이전 글에서 언급한 예시입니다. 2016년 겨울, 많은 시민들이 광화문 광장에서 촛불을 들었습니다. 많은 언론에서는 시위에 참여한 시민의 숫자에 크게 관심이 있었습니다. 거의 매 집회마다 경찰측과 주최측의 인원추산은 차이가 꽤 있었고 누구의 주장이 맞는지 갑론을박도 있었습니..
많은 통계학 교과서에서 처음 등장하는 개념은 '변수'입니다. 변수란 우리가 연구, 조사, 관찰하고 싶은 대상의 특성입니다. 그런데 이런 개념을 왜 약속할까요? 변수라는 말에 그 의미가 있습니다. 그대로 변하는 수라는 뜻이고, 영어로 하면 variable 입니다.vary가 다양하다는 뜻이니, able과 함께 생각해보면 다양할 수 있는 수, 다양하게 변하는 수라고 생각이 되네요. 이전 글에서 통계학은 다양성(불확실성)의 문제를 다루고 해결책을 제시하는 학문이라고 했습니다. 다양성을 다루기 위해서는 먼저 다양성을 어떤 형태로든 표현해야겠죠. 이것이 변수인 것입니다. 변수의 예로는 사람의 종교, 혈액형, 성별, 오늘의 최고기온, 일년간 교통사고의 수 등이 있습니다. 종교라는 말은 불교, 기독교, 천주교, 등등의..
많이 더운 것 같은데 왜 온도가 저것밖에 안되지?물가가 많이 오른 것 같은데 정부의 물가상승률 발표는 왜 저래?기상청의 통계는 맞는 적이 없어. 매번 틀리자나. 통계학과 학부생인 저도 저런말을 자주하니, 실생활에서 통계는 부정적인 이미지로 많이 사용되는 것 같습니다. 심지어, 라는 제목의 책까지 있을 정도라니까요. 그렇다면 통계는 정말 믿을 수 없는 것일까요?통계를 다루는 통계학은 또 무엇일까요?통계와 통계학은 같은 것일까요? 1. 통계학이란 무엇일까요? 아래는 교과서와 교양서 속 통계학의 의미입니다. 통계학이란 어떤 결론을 얻기 위해 자료를 수집하고, 정리 요약하는 방법이다. - 통계학 입문, 정문사 어느 집단에 대한 경향이나 특징을 알기위해 관측, 조사, 실험한 결과를 숫자나 문자로 나타낸 것이 통계..