회귀 모델의 선택: 동일한 데이터에서 어떤 모델이 더 좋을까?

Data science/Statistics

회귀 모델의 선택: 동일한 데이터에서 어떤 모델이 더 좋을까?

2024. 6. 10. 03:33

회귀 모델의 선택

1) 두 변수가 nested 관계에 있을 때

--> Likelihood ratio test 를 통해 유의미하게 좋은 모델을 선택한다.

두변수가 nested 관계에 있다는 것은 full model, reduced model 관계에 있다는 것을 의미한다.

$$ Model1: g(\pi_i) = \beta_0 + \beta_1x_{1i} $$

$$ Model2: g(\pi_i) = \beta_0 + \beta_1x_{1i} + \beta_2x_{2i} $$

만약 모델 2에서 beta2가 0인 경우, 모델1 이 된다. 따라서 두 모델은 nested 관계에 있다.

이 경우 변수가 많은 모델2가 무조건 likelihood 가 높게 된다.

이 때, Likelihood ratio 가 카이제곱분포를 따르게된다. 자유도는 두 모델의 모수 개수의 차이가 된다. 여기서 L0가 간소한 reduced 모델이고, L1이 full model 이다. 이는 full model 과 reduce model 의 log likelihood 의 차이의 2배이다.

$$ -2ln(\frac{L_0}{L_1}) = -2(lnL_0 - lnL_1) \sim \chi(1)$$

만약 위 통계량이 유의미한 카이제곱 값을 가지면, full model 이 reduced model 보다 좋은 것이다. 따라서 full model 을 채택한다. 만약 카이제곱값의 p-value 가 0.05보다 크다면, full model 이 reduced model 보다 좋지 않은 것이므로, reduced 모델을 채택한다.

2) 두 변수가 unnested 관계 일 때

--> AIC 가 작은 모델을 선택한다.

$$ Model1: g(\pi_i) = \beta_0 + \beta_1x_{1i} $$

$$ Model3: g(\pi_i) = \beta_0 + \beta_1x_{2i} + \beta_2x_{3i} $$

이러한 경우 AIC 를 통해 두 모델 중 어떤 모델이 좋은지를 판단할 수 있다. p는 변수의 숫자로 패널티텀이다. unnested 관계일 때, likelihood ratio test 를 적용할 수 없는 이유는 unnested 관계일 때는 likelihood ratio 가 카이제곱분포를 따르지 않기 때문이다.

$$ AIC = -2(Log L_1 - p) $$

만약 모델1 의 로그 우도가 -120 이고, 모델3의 로그 우도가 -115 라고하자. 모델3의 로그 우도가 더 높다.

모델1의 AIC = -2(-120 - 2) = 244

모델3의 AIC = -2(-115 - 3) = 236

만약 모델3의 추정 파라미터 수가 2개였다면, AIC 는 234였을 것이다. 파라미터로 인한 패널티 2점이 들어갔음을 알 수 있다. 이 경우 패널티를 고려해도 모델3의 AIC가 낮기 때문에 모델3을 채택한다.

저작자표시

'Data science > Statistics' 카테고리의 다른 글

벤 다이어그램에서 구할 수 있는 다양한 유사도 지표들 (0)	2024.06.27
이진 분류 모델의 기본적인 성능 평가 (0)	2024.06.10
일반화 선형 모형의 개념 및 회귀 계수의 의미 (0)	2024.05.07
선택 편항과 Collider bias 에 대한 설명 (0)	2024.05.07
코크란-멘텔-헨젤 검정과 공통 오즈비의 추정 방법 (0)	2024.05.07

Deepplay interested in data analytics and ML modeling

admin write link

notice

블로그 운영 정보

my link

statistics

total :
today :
yesterday :

Data science/Statistics

회귀 모델의 선택: 동일한 데이터에서 어떤 모델이 더 좋을까?

회귀 모델의 선택

1) 두 변수가 nested 관계에 있을 때

2) 두 변수가 unnested 관계 일 때

'Data science > Statistics' 카테고리의 다른 글

notice

category

recent posts

recent comments

tag cloud

my link

statistics

티스토리툴바