회귀 모델의 선택
1) 두 변수가 nested 관계에 있을 때
--> Likelihood ratio test 를 통해 유의미하게 좋은 모델을 선택한다.
두변수가 nested 관계에 있다는 것은 full model, reduced model 관계에 있다는 것을 의미한다.
$$ Model1: g(\pi_i) = \beta_0 + \beta_1x_{1i} $$
$$ Model2: g(\pi_i) = \beta_0 + \beta_1x_{1i} + \beta_2x_{2i} $$
만약 모델 2에서 beta2가 0인 경우, 모델1 이 된다. 따라서 두 모델은 nested 관계에 있다.
이 경우 변수가 많은 모델2가 무조건 likelihood 가 높게 된다.
이 때, Likelihood ratio 가 카이제곱분포를 따르게된다. 자유도는 두 모델의 모수 개수의 차이가 된다. 여기서 L0가 간소한 reduced 모델이고, L1이 full model 이다. 이는 full model 과 reduce model 의 log likelihood 의 차이의 2배이다.
$$ -2ln(\frac{L_0}{L_1}) = -2(lnL_0 - lnL_1) \sim \chi(1)$$
만약 위 통계량이 유의미한 카이제곱 값을 가지면, full model 이 reduced model 보다 좋은 것이다. 따라서 full model 을 채택한다. 만약 카이제곱값의 p-value 가 0.05보다 크다면, full model 이 reduced model 보다 좋지 않은 것이므로, reduced 모델을 채택한다.
2) 두 변수가 unnested 관계 일 때
--> AIC 가 작은 모델을 선택한다.
$$ Model1: g(\pi_i) = \beta_0 + \beta_1x_{1i} $$
$$ Model3: g(\pi_i) = \beta_0 + \beta_1x_{2i} + \beta_2x_{3i} $$
이러한 경우 AIC 를 통해 두 모델 중 어떤 모델이 좋은지를 판단할 수 있다. p는 변수의 숫자로 패널티텀이다. unnested 관계일 때, likelihood ratio test 를 적용할 수 없는 이유는 unnested 관계일 때는 likelihood ratio 가 카이제곱분포를 따르지 않기 때문이다.
$$ AIC = -2(Log L_1 - p) $$
만약 모델1 의 로그 우도가 -120 이고, 모델3의 로그 우도가 -115 라고하자. 모델3의 로그 우도가 더 높다.
모델1의 AIC = -2(-120 - 2) = 244
모델3의 AIC = -2(-115 - 3) = 236
만약 모델3의 추정 파라미터 수가 2개였다면, AIC 는 234였을 것이다. 파라미터로 인한 패널티 2점이 들어갔음을 알 수 있다. 이 경우 패널티를 고려해도 모델3의 AIC가 낮기 때문에 모델3을 채택한다.
'Data science > Statistics' 카테고리의 다른 글
벤 다이어그램에서 구할 수 있는 다양한 유사도 지표들 (0) | 2024.06.27 |
---|---|
이진 분류 모델의 기본적인 성능 평가 (0) | 2024.06.10 |
일반화 선형 모형의 개념 및 회귀 계수의 의미 (0) | 2024.05.07 |
선택 편항과 Collider bias 에 대한 설명 (0) | 2024.05.07 |
코크란-멘텔-헨젤 검정과 공통 오즈비의 추정 방법 (0) | 2024.05.07 |