To love

가설 검정의 발명자는 없다 본문

통계학 /가설 검정

가설 검정의 발명자는 없다

Student9725 2020. 8. 4. 22:30

통계학의 여러 개념들을 만나면서 의문을 잔뜩 품게 되었습니다.

 

왜 이 개념은 이렇게 약속했지?

왜 이 개념은 이렇게 쓰일 수 밖에 없지?

 

다른 교양 과목을 수강하면서 가장 크게 들었던 의문은,

왜 통계학의 핵심개념들에는 통계학의 역사를 다루지 않지? 였습니다.

 

제가 처음에 마음에 가지고 있던 설명은 통계학이 100년도 채 되지 않을지도 모르는 역사가 짧은 학문이라는 것입니다. 그런데, 심리학의 경우 쌍대 대학원 입시 교재인 힐가드와 마이어스 책 개론 도입부에서 "현대 심리학은 1879년 독일 라이프치히에 빌헬름 분트가 실험실을 세운 것을 그 시작으로 본다" 라고 서술합니다. 심리학도 통계학과 역사의 길이가 크게 다르지 않은 것으로 알려져 있는데 말이죠.

 

특히, 가장 핵심 개념 중 하나인 가설 검정에 통계학의 역사가 서술되지 않은 이유는, 가설 검정을 발명한 핵심인물 중 어떤 연구자도 현재와 같은 가설 검정에 동의 한적 없기 떄문입니다.

 

 

1. 유의성 검정

 

이는 통계학의 아버지라 불리는  R. A. Fisher의 발명품으로 알려져 있습니다. p - value, 유의수준 등의 개념은 이 사람이 고안한 것입니다. 유의성 검정의 목적은 귀무가설을 검사하는 것입니다. p값은 추후에 설명하겠지만, 귀무가설이 맞다는 가정 하에서 관측된 자료보다 더 극단적인 자료가 관측될 확률입니다.  p값이 작다는 것은 연구자가 얻은 자료가 귀무가설 하에서는 관측되기 힘들다 또는 다시 말해 귀무가설에 의해 잘 설명되지 않는다는 것으로도 볼 수 있습니다. 다시말해, p값은 귀무가설에 대한 반증가능성을 표현합니다.

 

p값이 충분히 작을 때, 연구자는 귀무가설이 틀렸다고 결론 내립니다. 그 선택의 기준이 '유의수준'입니다. 피셔는 유의수준을 연구자의 사전 지식 또는 연구의 배경 등에 의해 결정되어야 한다고 주장했습니다. 그러나 후대의 학자들은 주로 0.05라는 숫자를 관행적으로 사용하게 되었습니다.

 

 

2. 가설 검정

 

Jerzy Neyman,  Egon Pearson. 네이만과 피어슨의 작품입니다. 알파, 베타, 검정력, 기각역, 대안가설 등의 용어는 이 사람들의 발명품입니다. 반복적인 의사결정이 필요한 경우, 즉 가설검정을 연속적으로 해야할 떄 얼마만큼 비율의 오류가 발생하는가? 또는 이 오류를 조절하려면 어떤 방법을 사용해야 하는가? 가 이들의 관심사였습니다.

 

이들은 피셔와는 달리 단일한 가설이 아니라, 여러 가설 사이에 어느 것을 채택 할지에도 관심을 가졌습니다. 가설을 채택한다는 의미는 그 가설이 진리라는 것이 아니라, 그 가설이 더 유용하게 사용된다는 의미입니다. 이들은 가설의 채택과정에서 '대립가설'이라는 개념을 생각했습니다.

 

오류의 발생에 대해서는 1종 오류와 2종오류를 정의하였고, 이들을 제한적으로 통제하는 방법도 고안하였습니다. 1종오류 알파는 귀무가설이 참인데 대립가설을 채택하는, 2종오류 베타는 대립가설이 참인데 귀무가설을 채택하는 오류입니다.

 

 

3. 우연한 만남

 

유의성검정과 가설검정은 완전히 다른 목적에 의해 생겨난 발명품이고, 이들의 인식차 떄문에 논쟁을 벌였고, 서로의 이론에 반대했습니다. 

 

그런데, 재미있는 지점이 있었습니다. 두 방법이 수학적으로는 동일한 결과로 표현된다는 것이었습니다. 유의수준과 알파 값이 동일한 경우, 한 쪽에서 귀무가설이 기각되면 다른 한 쪽에서도 귀무가설이 기각된다는 의미입니다. 

 

통계학이 다른 과학 연구 분야들의 방법론으로 사용되면서, 두 가지 방법이 융합된, 철학적 배경이 전무한 방법이 널리 퍼지게 되었습니다. 유의수준과 알파가 동일한 것으로 이해되고, 귀무가설의 기각이 언제나 대립가설의 수용인 것처럼 잘못 사용되기 시작하면서 우리가 사용하는 현대의 가설검정이 탄생되었습니다.

 

 

reference

 

Schneider, J. W. (2015). Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations. Scientometrics, 102(1), 411-432.  link.springer.com/article/10.1007/s11192-014-1251-5

Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics, 33(5), 587-606.

www.sciencedirect.com/science/article/pii/S1053535704000927

 

 

 

 

Comments