메인메뉴로 이동 본문으로 이동

컨텐츠 내용

  1. 커뮤니티
  2. 즉문즉답

즉문즉답

즉문즉답 조회 페이지
데이터변환(data transformation)에 대한 질문입니다 김원표 / 2020.03.01

#############################################################################################
##  본 Q&A는 과거 운영사이트(snscon.com) Q&A에서 좋은 질문에 대한 답변을 학습 목적으로 재정리하셔 업로드한 것입니다. ##
#############################################################################################


Q1. 제가 가지고 있는 데이터는 특정 기간동안 특정 신문에 보도 된 것의 content analysis 데이터 입니다. 특정 변수에 대한  freqeuncy를 측정한 것을 월별로 묶어 파일화 한 것인데 frequency  0값이 너무 많아서  몇몇 variable을 merge도 해보고 했는데 그래도 여전히 데이터가 normal하지 않습니다.
그래서 제가 data transformation을 시도 하고 있는데 log10(x+ constant)도 해보고 ln(x+constant)도 써보고 1/(x+constant)도 해보고 제곱근, 제곱 등을 다 써서 해봐도 전 데이터가 다 완벽하게 transformation이 안되네요.  (저는 최종적으로 SEM을 쓸 예정인데 그럴려면 데이터를 normal하게 만들어야 할 것 같아서요...)
혹시 이 외의 방법이 있으면 좀 알려주시면 좋겠습니다.

Q2. SEM을 하기 전에 SPSS상에서 Explorary factor analysis, 그리고  변수간 correlation등을 체크해야 하는 것이 필수인지요? 그냥 문헌연구에 기초한 가설에 근거해서 AMOS를 돌리면 안되나요?
제가 지금 초보라서 여러가지가 혼란스럽네요 ^^. 친절한 답변 부탁드립니다.


A1. 결론부터 말씀드리면 데이터 특성상 정규성이 어려운 변수는 아무리 변환을 하더라도 완벽하게 정규성을 충족하지는 못합니다. 변환을 하는 이유는 지나치게 비정규적인 분포를 띄는 데이터를 가급적 정규성에 가깝게 만드는 것이지, 완벽한 정규성으로 만드는 것이 아닙니다. 데이터의 특성을 보지 않아 정확하게 말씀드릴 수는 없지만, 일반적으로 사용하는 변환방법을 사용한 것 같은데, 그 중에서 가장 정규성에 가까운(통계값보다는 히스토그램 등의 그림으로 판단하는 것이 더 좋을 것입니다) 변수를 사용하는 것이 좋습니다.
데이터변환은 이론적 근거에 의해 실행하는 것이 아니라 경험적, 실무적인 지식으로 사용하는 것이기 때문에 어떤 자료를 어떤 변환을 해야 한다라고 정해진 것이 없습니다. 따라서 이러한 변환은 나름의 논리와 연구분야의 선행결과를 근거로 해야 합니다.

A2. 탐색적 요인분석 및 신뢰도분석은 해야 합니다. 문헌연구 혹은 선행연구에서 적합하게 나타났다 하더라도, 연구마다, 대상마다 요인구조는 달라질 수 있습니다. 또한 부적합한 문항, 변수의 투입으로 인해 구조방정식의 적합도가 현격히 떨어지는 경우가 많기 때문에 위의 작업은 반드시 거쳐야 합니다.