To love

AIC와 BIC 본문

통계학 /다변량 분석

AIC와 BIC

Student9725 2020. 8. 6. 15:35

1. 오컴의 면도날

 

어떤 현상을 설명할 떄, 그 설명이 너무 복잡하면 머리에 쥐가 나기 마련입니다. 

설명을 간단하게 하는 것, 또는 가정을 적게하는 것이 장떙이라는 '오컴의 면도날'이라는 이론이 있습니다.

오컴은 한 논리학자의 이름이고, 면도날은 필요하지 않은 가설을 잘라버린다는데서 유래했다고 합니다.

 

예를 들어, 새까맣게 그을린 나무가 있다고 가정하자. 이는 나무가 벼락에 맞았기 때문이거나, 아니면 누군가가 어떤 장치를 이용해서 나무가 완전히 잿더미로 변하지 않도록 적절히 그을린 다음 자신이 그을렸다는 흔적을 완전히 없앤 것일 수도 있다. 이 상황을 판단할 다른 증거가 없는 경우 오컴의 면도날을 적용해 본다면, 나무가 그을린 것은 벼락에 맞았기 때문이라고 추론하는 것이 옳다. 왜냐하면, 나무가 벼락에 맞아서 그을린 것이라고 설명하는 것이 더 적은 수의 가정을 필요로 하기 때문이다. (출처 : 위키피디아 - 오컴의 면도날)

 

 

2. 모형 선택

 

자료를 통해 모형을 세울 때, 너무 자료에 근접한 모형을 세운다면, 새로운 데이터에 대해서는 그 모형이 잘 설명하기 힘듭니다. 그래서 자료를 잘 설명하는 모형을 선택할 떄, 모형이 얼마나 복잡한가도 모형을 선택하는 좋은 기준이 됩니다. 이는 나중에 데이터마이닝 파트에서 부연하겠습니다.

 

AIC와 BIC는 모형을 비교하는 기준들의 이름입니다. AIC는 Akaike Information Criterion 의 약자며, BIC는 Bayesian Information Criterion의 약자입니다. 'information criterion'를 공통적으로 포함합니다. 정보의 양과 질에 관심있다는 것이죠.

 

AIC와 BIC는 모두 모형이 복잡해 질수록 패널티를 부여합니다. AIC는 패널티를 (모형 파라미터의 갯수) 곱하기 2로, BIC는 (모형 파라미터의 갯수) 곱하기 log(n)으로 약속합니다. AIC의 패널티는 표본 크기에 상관없이 일정하지만, BIC의 패널티는 표본 크기가 커질수록 함께 커집니다. 따라서 BIC가 표본 크기가 커질수록 복잡한 모형을 더 강하게 처벌합니다.

 

 

3. 사용법

 

AIC는 두 확률분포 사이의 차이를 표현한 것입니다. 실제 데이터의 분포와, 모형이 예측하는 분포 사이의 차이입니다. 

AIC가 작다는 것은 모형이 자료의 진짜 분포와 비슷하게 생겼다는 것입니다. 그런데, AIC는 실제 데이터의 분포 자체에는 관심이 없습니다. 예측을 잘하는지에 대해서만 관심이 있지요. 실제 데이터의 분포 자체에 관심이 있는 것은 BIC입니다. 

 

예측을 잘하고 싶을 떄는 AIC를 주로, 실제 데이터의 분포를 잘 알고 싶을 떄는 BIC를 주로 사용합니다.

 

reference

R 응용회귀분석, 나종화, 자유아카데미 p.5 ~ p.8

https://journals.sagepub.com/doi/10.1177/0049124104268644

 

Multimodel Inference: Understanding AIC and BIC in Model Selection - Kenneth P. Burnham, David R. Anderson, 2004

The model selection literature has been generally poor at reflecting the deep foundations of the Akaike information criterion (AIC) and at making appropriate co...

journals.sagepub.com

 

Comments