메인메뉴로 이동 본문으로 이동

컨텐츠 내용

  1. 수강신청
  2. 과정정보

Case Study-Python Linear & Logit Regression Analysis

과정 이미지
Case Study-Python Linear & Logit Regression Analysis 과정정보
수강기간 30일
강의구성 1차시
수강료 무료
과정소개

 * 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.

 

유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.

평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.

 

######### 과제 소개 ############


본 과제는 Python으로 선형회귀 및 로지스틱 회귀분석을 수행하는 소과제 풀이 영상입니다. 

데이터사이언스 Python 강좌 중 선형회귀분석의 개념과 원리, 선형회귀분석의 실습과 시각화, 더미회귀분석의 개념과 원리, 더미회귀분석의 실습과 시각화, 로지스틱회귀분석의 개념과 원리, 로지스틱회귀분석의 실습과 시각화 까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다. 


데이터설명: 국내 대형병원 12,000명의 담낭결석 진료 환자 (실제 데이터, 비식별화를 위한 개인정보 제거)


소과제 내용: 

I. Linear Regression 과제


1. '의학데이터.xlsx'자료를 불러와 선형회귀분석을 수행하시오.

1) 지역~공복혈당까지 10개 변수가 이완혈압에 미치는 선형회귀분석을 수행하고, 무엇이 문제인지 언급하시오.

단) 결측치가 있을 경우 해당 행(케이스)을 제거하고 분석하시오(결측치가 있을 경우, 잔차 검증시 오류)

2) 위의 모델에 대한 예측치, 실제치, 둘 간의 차이인 잔차(residual)를 저정하고 잔차 진단 도표들을 작성해보시오.


2. 자료를 조정하여 선형회귀분석을 수행한 후, 앞의 선형회귀와 개선된 수치를 비교하시오

1) 정규성을 벗어나는 변수(3가지)를 log변환하고 , 

2) bmi 지수를 신장, 체중으로 이용해 만든 다음

3) 범주형 자료를 더미처리하여 회귀분석 및 잔차 진단을 하시오


II. Logistic Regression 과제

1. 자료 조정된 변수를 투입하여 담석여부에 미치는 로지스틱 회귀분석을 수행하시오.

1) 로지스틱 회귀분석을 수행한 후 회귀계수 및 통계량(t값, p값)을 보고 해석하시오, 

2) 승산비(odds ratio)를 계산하고 95% 신뢰구간을 파악하시오

3) 담석환자일 예측확률을 계산하고, 예측률을 구하시오


2. 연령을 연령대로 변경하여 다시 로지스틱 회귀분석을 수행하시오.

변경 >> 연령대 1: 20세 이하, 2: 21~30세, 3: 31~40세, 4: 41~50세, 5: 51~60세, 6: 60세 이상

1) 연령이라는 연속형 변수에 비해 연령대의 계수 및 승산비를 비교하여 해석하시오.


학습목표
Python으로 회귀분석 수행 및 활용 100% 이해하기!
강의목차
차시 강의명 학습시간
1차시 Python 선형 및 로짓회귀분석 강좌 #4 60분