메인메뉴로 이동 본문으로 이동

컨텐츠 내용

  1. 커뮤니티
  2. 즉문즉답

즉문즉답

즉문즉답 조회 페이지
이항로지스틱 분석에서 독립변수의 수준에 따라 결과가 달라지네요 김원표 / 2020.03.07

#############################################################################################

##  본 Q&A는 과거 운영사이트(snscon.com) Q&A에서 좋은 질문에 대한 답변을 학습 목적으로 재정리하셔 업로드한 것입니다. ##

#############################################################################################


Q. 제가 이분형 로지스틱 회귀분석을 SPSS로 돌렸는데요, 독립변수 하나를 연속변수에서 categoral 변수로 바꿨더니 결과가 달라져서요. 

무슨말이냐하면 병이 생긴다, 안생긴다를 종속변수로 하고

독립변수를 A,B,C,D 로 했습니다. A는 연속변수고 B,C,D는 categorial 변수고요,

처음에는 A,B,C가 의미있게 나왔습니다. 그런데 A의 연속변수를 조건을 달리해서 categorial 변수로 바꿔  if A< 250=1. if A>250 =2 로 나눈후 이분형로지스틱을 돌렸더니 결과가 A,C만 의미있게 나오고 B는 p value가 의미없이 나왔습니다.

이런경우 A와 B가 상관관계가 있었던 (공선성?) 것일까요? 아니면 다른 이유가 있나요?

그래서 이런경우는 B의 변수를 빼고 분석을 해야하나요? 아니면 다른방법이 있나요? (전 first stepwise로 했는데..)


A. 자료를 보지 않아 정확하게 답변드릴 수 없습니다. 공선성 여부는 직접 결과를 돌려보아야 할 수 있습니다. 변수 이름도 모르고 판단할 수는 없습니다. 다만 추측컨데, A 를 250 상/하로 나누면 자료의 연속성이 없어지게 됩니다. 따라서 유의하지 않게 나타날 수 있습니다. 만약 범주를 여러개로 하여 100, 200, 300 등 몇 개의 범주로 나누면 유의하게 영향을 미칠 수도 있습니다. 변수의 특성에 따라서 결과가 달리 나오는 것은 당연한 것입니다.

따라서 범주화는 이론적/경험적 바탕으로 해야 합니다. 쉬운 작업이 아니죠 ^^.