목록카테고리 (18)
To love

1. 선형회귀분석에 관한 이해 통계학의 주 된 관심사는 어떤 현상에 내재된 다양성 또는 불확실성입니다. 통계학 입문 교과서 맨 앞에서는 다양성을 표현하기 위한 한 형태로 ‘변수’라는 개념을 약속합니다. 두 개 이상의 변수가 존재할 때, 이 변수들간의 관계에도 관심을 가지게 됩니다. 각각의 변수들이 수량형인지 범주형인지에 따라 다양성의 형태가 달라지므로 분석 방법도 달라집니다. 많은 책들이 두 변수간의 관계를 서술하기 시작하면서 갑자기 X와 Y라고 이름 붙이고 시작하는 이유는 이를 명확하게 구분하기 위함이 아닐까 합니다. 회귀분석이란 데이터를 통해 Input변수(X)를 기반으로 output변수(Y)의 값을 알아내고자 하는 통계적 모델을 만드는 것과 관련이 있습니다. Input변수를 기반으로 output변수..
기초통계학은 크게 2가지의 분석 기법으로 나누어 볼 수 있습니다. 한 자료에서 모집단이 몇 개 있느냐 연구자의 입장에 따라 바라보는 통계학과, 한 변수와 다른 변수들 간 관계가 무엇인지 탐구하는 통계학입니다. 전자의 대표적인 예시가 두 집단 평균 차이 검정, 또는 분산분석이고, 후자의 대표적인 예시는 상관분석과 회귀분석입니다. 1. 산점도 좌표평면은 데카르트라는 학자의 위대한 발명품입니다. 숫자들로만 표현된 자료를 그림으로 바꾸어 표현하는데 유용하게 사용된다는 점에서 위대합니다. 데이터를 점으로 표현하여, 점이 퍼저있는 그림을 그린 것을 산점도라고 합니다. 상관분석 이전에 반드시 산점도를 작성해야 합니다. 상관계수를 구하는 목적이 상관계수라는 숫자 이전에 두 변수 간 관계에 관심이 있기 때문입니다. 상관..
1. 오컴의 면도날 어떤 현상을 설명할 떄, 그 설명이 너무 복잡하면 머리에 쥐가 나기 마련입니다. 설명을 간단하게 하는 것, 또는 가정을 적게하는 것이 장떙이라는 '오컴의 면도날'이라는 이론이 있습니다. 오컴은 한 논리학자의 이름이고, 면도날은 필요하지 않은 가설을 잘라버린다는데서 유래했다고 합니다. 예를 들어, 새까맣게 그을린 나무가 있다고 가정하자. 이는 나무가 벼락에 맞았기 때문이거나, 아니면 누군가가 어떤 장치를 이용해서 나무가 완전히 잿더미로 변하지 않도록 적절히 그을린 다음 자신이 그을렸다는 흔적을 완전히 없앤 것일 수도 있다. 이 상황을 판단할 다른 증거가 없는 경우 오컴의 면도날을 적용해 본다면, 나무가 그을린 것은 벼락에 맞았기 때문이라고 추론하는 것이 옳다. 왜냐하면, 나무가 벼락에 ..
1. 통계적 모형(대표값과 편차) 이전 글에서 사실을 특정한 입장으로 바라 볼 수 있듯, data를 model로 바라볼 수 있다고 이야기 하였습니다. Data가 몇 개의 모집단에 속해있는지 바라보는 관점은 수학적으로 ‘대표값’이라는 용어와 ‘편차’라는 용어로 표현됩니다. 편차는 각각의 개체가 자료의 중심인 대표값으로부터 떨어진 거리를 말합니다. Data = 대표값 + 편차 예를 들어, 대한민국 20대 남성인 철수의 키가 175cm이고, 대한민국 남성 평균 키가 170cm, 대한민국 20대 평균 키가 165cm, 대한민국 사람 평균 키가 163cm라고 알려져 있는 상황을 생각 할 수 있습니다. 이 때, 철수의 키 173cm 라는 사실을 = 대한민국 남성이기 떄문인 170cm + 철수 고유의 특성인 3cm로..
통계학의 여러 개념들을 만나면서 의문을 잔뜩 품게 되었습니다. 왜 이 개념은 이렇게 약속했지? 왜 이 개념은 이렇게 쓰일 수 밖에 없지? 다른 교양 과목을 수강하면서 가장 크게 들었던 의문은, 왜 통계학의 핵심개념들에는 통계학의 역사를 다루지 않지? 였습니다. 제가 처음에 마음에 가지고 있던 설명은 통계학이 100년도 채 되지 않을지도 모르는 역사가 짧은 학문이라는 것입니다. 그런데, 심리학의 경우 쌍대 대학원 입시 교재인 힐가드와 마이어스 책 개론 도입부에서 "현대 심리학은 1879년 독일 라이프치히에 빌헬름 분트가 실험실을 세운 것을 그 시작으로 본다" 라고 서술합니다. 심리학도 통계학과 역사의 길이가 크게 다르지 않은 것으로 알려져 있는데 말이죠. 특히, 가장 핵심 개념 중 하나인 가설 검정에 통계..
1. 사실과 입장 우리는 어떤 사건을 보면 그 사건을 하나의 입장으로 받아들이곤 합니다. ‘비가 30mm 내린다’는 사실을 ‘비가 많이 온다’는 입장으로 받아들입니다. 이러한 특성이 기초통계의 생각에 그대로 녹아나 있습니다. 일상생활에서 사실 fact를 표현하는 방식은 말과 글입니다. 이를 조금 더 구체화하기 위해 현상을측정하고, 그 과정에서 척도를 이용한다면 시각화 한다면, 표나 그래프, 숫자가 되겠지요. 사회조사분석사 시험의 개념에 따르면, 측정은 현상을 숫자로 표현하는 것이고, 척도는 숫자들을 체계화 시킨 것입니다. 통계학에선 사실을 고급진 용어로 data라고 합니다. 입장은 model, 다른 말로 분포라고 합니다. 어떤 사실이 어떤 입장을 따른다. 또는 어떤 사실이 어떤 입장에 부합한다. 라는 말..
1. Project 클릭 후 New Directory : 새로운 디렉토리에 프로젝트를 만든다. Existing Directory : 기존 디렉토리에 프로젝트를 만든다. Version Control : Git, Subversion의 Version Control 시스템으로부터 디렉토리를 만든다. Git은 리눅스를 만든 Linus Torvalds에 의해 개발된 분산 버전관리 시스템이고,Subversion은 아파치 소프트웨어 재단에 의해 개발된 분산 버전관리 시스템이다.분산 버전관리란 각 개발자가 중앙 서버에 접속하지 않은 상태에서도 코드 작업을 할 수 있는 시스템을 말한다. 2. New Directory 클릭 후 Empty Project : 빈 프로젝트를 만든다. R Package : R에서 사용할 패키지를 ..
구간 주어진 두 실수 사이의 모든 실수의 집합 닫힌구간(폐구간) 두 실수 a와 b를 포함하며, 동시에 두 실수 사이의 모든 실수 x의 집합닫힌구간을 표기하기 위해 사용된 이 기호 ('[', ']')들은 두 실수 a와 b를 집합에 포함시킨다는 의미로, 대괄호를 사용하여 해당 실수를 집합에 포함시킬지 말지를 표시한다.대괄호를 사용하면 이는 구간의 끝점을 포함한다는 의미다. 열린구간(개구간)양 끝점 a와 b를 포함하지 않는 실수 x들의 집합이며 소괄호를 사용한다.즉, 한 끝점 a 앞에 소괄호를 사용하게 되면, a는 열린구간의 원소가 아니므로, a를 구간에 포함시킬 수 없음을 의미한다. 반열린구간 (반개구간)두 구간의 조합.[a,b) 기호가 의미하는 바는 a 보다는 크거나 같고 b보다 작은 실수 x들의 집합을 ..
노름이란 벡터 혹은 행렬의 길이 혹은 크기를 계산할 때 사용되는 일종의 함수 p-노름 : x의 각 요소 x_i의 절대값의 p제곱값들을 더하고 그 결과값에 1/p 제곱을 한 결과값 1-노름 : x의 각 요소들의 절대값들의 합 2-노름(유쿨리디언 노름) : x의 각 요소들의 제곱값들을 모두 더한 후 이 값의 제곱근'유클리디언'이라고 부르는 이유는 일반적으로 유클리디언 거리를 계산할 때 쓰이기 때문 무한대 노름 : x의 요소들의 절대값들 중 최대값 출처 : 데이터과학을 위한 수학기초(K-Mooc강의)
카티션 곱 A와 B의 카티션 곱은 A x B와 같이 표기첫번째 요소가 A의 원소이고 두번째 요소가 B의 원소인 모든 순서쌍들의 집합각 순서쌍은 소괄호를 이용하여 표기 예를 들어, a와 c로 구성된 집합 A와 c와 e로 구성된 집합 B의 카티션 곱은(a,c), (a,e), (c,c), (c,e)와 같은 순서쌍으로 구성된 집합각 순서쌍의 첫번째 요소는 집합 A의 원소이며, 순서쌍의 두번째 요소인 'c', 'e', 'c',' 'e' 들은 집합 B의 원소들 R^n : n 차원 실수공간을 의미. n개의 실수집합 R들의 카티션 곱의 표현식 출처 : 데이터과학을 위한 수학기초(K-Mooc강의)