메인메뉴로 이동 본문으로 이동

컨텐츠 내용

  1. 수강신청
  2. 과정정보

Case Study- Python Group & Variable Association Analysis

과정 이미지
Case Study- Python Group & Variable Association Analysis 과정정보
수강기간 30일
강의구성 1차시
수강료 무료
과정소개

 * 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.

 

유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.

평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.

 

######### 과제 소개 ############


본 과제는 Python으로 집단간 평균차이검정(t검정, F검정) 수행 및 집단별 결과 시각화, 변인간 상관관계 및 시각화를 수행하는 소과제 풀이 영상입니다. 

데이터사이언스 Python 강좌 중 Python을 활용한 대응표본 t-test분석의 개념과 원리, 대응표본 t-test분석의 실습과 시각화, 분산분석의 개념과 원리, 분산분석의 실습과 시각화, 상관관계분석의 개념과 원리, 상관관계분석의 실습과 시각화 까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다. 


데이터설명: 국내 대형병원 12,000명의 담낭결석 진료 환자 (실제 데이터, 비식별화를 위한 개인정보 제거)


소과제 내용: 

1. '의학데이터.xlsx'자료를 불러와 대응표본 t-test를 수행하시오.

1) 콜레스테롤과 고밀도지단백의 기술통계 결과를 하나의 표로 나타나게 정리하시오.

2) 콜레스테롤(cholesterol)과 고밀도지단백(HDL) 간의 차이를 파악하려고 한다. 그러나 두 변수는 데이터의 단위가 달라 원 자료로 대응표본 t-test분석을 수행하면 적합하지 않다. 따라서 두 변수를 표준화점수(z-score)로 변환한 새로운 변수를 생성하고 대응표본 t-test를 수행하시오. 단, 표준화점수를 만들 수 있는 함수 정의(def)를 만들어서  수행하시오.

3) 표준화된 자료로 대응표본 t-test를 수행한 결과를 보고 이 분석의 문제점을 제시하시오.


2. 연령대와 bmi에 따라서 이완혈압에 차이가 있는지를 분석해보시오.

1) 연령대와 bmi를 생성 및 범주화화고 집단별 이완혈압의 기술통계량 및 도표(box-plot, histogram)를 살펴보시오.

2) 연령대에 따른 이완혈압의 차이, bmi집단에 따른 이완혈압의 차이를 분산분석을 이용해 검증하고, 차이가 유의할 경우(p<0.05), 사후검정을 적용하여 살펴보시오.


3. 연령, bmi, 콜레스테롤, 중성지방, 고밀도지단백, 감마지티, 공복혈당 등 7개 변수와 이완혈압 간에 상관관계를 분석하고자 한다.

1) 위의 8개 변수만 new_data라는 새로운 데이터셋을 만들어 상관관계를 분석하고 상관관계도표를 살펴보시오.

2) 정규분포에서 벗어난 3개 변수들(소과제2 참조)을 log변환하여 다시 상관관계를 분석하고 상관관계도표를 살펴보시오.

3) 어떤 변수가 가장 이완혈압과 상관관계가 높은지 살펴보고, 정규분포에서 벗어난 변수의 원자료와 log변환 자료의 상관계수가 왜 달라졌는지 제시하시오.

학습목표
파이썬으로 t검정, F검정, 상관관계분석 수행 및 적합한 시각화 완성하기!
강의목차
차시 강의명 학습시간
1차시 Python t-test와 상관분석#3 94분