반응형
X-> Y 의 인과적 관계 파악을 위해, 간단한게 심플 회귀 분석을 진행할 수 있다. 만약 X 와 correlation 이 있고, Y 의 determinants 인 Z 라고 하는 변수가 보정되지 않는다면, omitted variable bias 가 발생한다. 이러한 상황에서 omitted variable bias 의 방향은 다음과 같이 알 수 있다.
1) Z->X 에 영향을 주는 방향
2) Z->Y 에 영향을 주는 방향
1) 2) 를 곱하면 이것이 bias 의 방향이 된다.
예를 들어, 소득(X)이 의료비 지출(Y)에 주는 영향을 파악하려고 한다. 이 때, 건강 상태(이를 개인이 갖고 있는 질병의 갯수라고 하자) 를 보정하지 않으면, omitted variable bias 가 발생하게 된다.
질병의 개수는 소득에 negative effect 이다. 질병의 개수가 증가할 수록 소득은 감소한다.
질병의 개수는 의료비 지출에 positive effect 이다. 질병의 개수가 증가할 수록 의료비 지출은 증가한다.
1) 2) 를 곱하면 negative 가 되기 때문에 bias 의 방향은 negative 가 된다. 따라서 건강 상태를 변수로 포함하지 않고 소득과 의료비 지출의 관계를 파악하여 나온 회귀 계수는 underestimate 이 되었다고 볼 수 있다. 만약, 동일한 건강상태에 있는 사람들만을 대상으로 소득과 의료비 지출의 연관성은 더욱 강하게 측정될 것이다.
반응형
'Data science > Statistics' 카테고리의 다른 글
코크란-멘텔-헨젤 검정과 공통 오즈비의 추정 방법 (0) | 2024.05.07 |
---|---|
범주형 분석 - 교차표에서 효과를 추정하는 방법 (0) | 2024.03.30 |
충분 통계량의 기초 개념 (0) | 2023.12.12 |
Maximum Likelihood Estimation 개념 정리 (0) | 2023.12.12 |
시계열분석 - Autoregressive Processes (1) | 2022.01.27 |