To love

모집단의 개수 본문

통계학 /가설 검정

모집단의 개수

Student9725 2020. 8. 5. 10:28

1. 통계적 모형(대표값과 편차)

 

이전 글에서 사실을 특정한 입장으로 바라 볼 수 있듯, datamodel로 바라볼 수 있다고 이야기 하였습니다. Data가 몇 개의 모집단에 속해있는지 바라보는 관점은 수학적으로 대표값이라는 용어와 편차라는 용어로 표현됩니다. 편차는 각각의 개체가 자료의 중심인 대표값으로부터 떨어진 거리를 말합니다.

 

Data = 대표값 + 편차

 

예를 들어, 대한민국 20대 남성인 철수의 키가 175cm이고, 대한민국 남성 평균 키가 170cm, 대한민국 20대 평균 키가 165cm, 대한민국 사람 평균 키가 163cm라고 알려져 있는 상황을 생각 할 수 있습니다.

 

이 때, 철수의 키

173cm 라는 사실을 = 대한민국 남성이기 떄문인 170cm + 철수 고유의 특성인 3cm로 볼 수도,

173cm 라는 사실을 = 대한민국 20대이기 떄문인 165cm + 철수 고유의 특성인 8cm로 볼 수도,

173cm 라는 사실을 = 대한민국 사람이기 떄문인 163cm + 철수 고유의 특성인 10cm로 볼 수도 있습니다.

 

어떤 data의 한 개체의 대표성을 무엇으로 보느냐는 것은 그 개체가 어떤 속한 모집단을 무엇으로 보느냐는 말과 같습니다.

 

 

2. 모집단의 개수

 

위의 예시에서 대한민국 30대 여성인 영희의 키가 168cm인 조건이 추가된 경우를 생각할 수 있습니다. 대한민국 여성 평균 키가 160 cm, 대한민국 30대 평균 키가 164cm라고 합시다.

 

이 때, 철수와 영희가 모두 대한민국 사람이기 떄문에 철수와 영희의 키 자료의 대표성분이 163cm라고 생각된다면,

 

이 때, 영희의 키

168cm 라는 사실을 = 대한민국 여성이기 떄문인 160cm + 철수 고유의 특성인 8cm로 볼 수도,

168cm 라는 사실을 = 대한민국 30대이기 떄문인 164cm+ 철수 고유의 특성인 4cm로 볼 수도,

168cm 라는 사실을 = 대한민국 사람이기 떄문인 163cm + 철수 고유의 특성인 5cm로 볼 수도 있습니다.

 

이 때, 철수와 영희의 자료가 모두 대한민국 사람이라는 한 모집단에서 나왔다고 볼 수도 있을 것입니다. 다르게 본다면 

철수의 자료는 대한민국 남성, 영희의 자료는 여성이기 떄문에 다르게 나왔다. , 남성과 여성 두 모집단으로 볼 수도 있습니다. 성별이 아니라 20대와 30대의 차이 때문에 생긴 특성으로 볼 수도 있습니다.

 

어떤 관점으로 볼 지는 연구자의 입장에 따라 달라집니다. 한 개 모집단에서 나왔다는 가정을 가지고 있다면, 데이터가 특정한 분포를 살펴볼 수 있겠죠. 두 개 모집단에서 나왔다는 가정을 가지고 있다면, 데이터의 평균 차이의 분포를 살펴볼 수도 있겠습니다. 데이터가 잘 설명되는 방식이 3개 모집단에 속했다는 입장이라면 분산분석을, 무수히 많은 집단에서 나왔다면 회귀분석을 사용 할 수 있습니다.

 

이처럼 각각의 데이터가 어떤 모형을 따르고 있는지 살펴보는 분석에는, 그 이면에 데이터가 몇 개의 모집단에 속했다고 볼 것인지 가정하는 연구자의 관점이 전제되어 있습니다.

 

Reference

김주한, 김홍기 등 통계학 입문

김충락, 강근석 회귀분석 p.41~p.45 통계적 모형과 단순선형회귀분석에 관한 설명

Comments