컨텐츠 내용
- 수강신청
- 과정정보
Case Study-Python Linear & Logit Regression Analysis

과정소개
* 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.
유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.
평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.
######### 과제 소개 ############
본 과제는 Python으로 선형회귀 및 로지스틱 회귀분석을 수행하는 소과제 풀이 영상입니다.
데이터사이언스 Python 강좌 중 선형회귀분석의 개념과 원리, 선형회귀분석의 실습과 시각화, 더미회귀분석의 개념과 원리, 더미회귀분석의 실습과 시각화, 로지스틱회귀분석의 개념과 원리, 로지스틱회귀분석의 실습과 시각화 까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다.
데이터설명: 국내 대형병원 12,000명의 담낭결석 진료 환자 (실제 데이터, 비식별화를 위한 개인정보 제거)
소과제 내용:
I. Linear Regression 과제
1. '의학데이터.xlsx'자료를 불러와 선형회귀분석을 수행하시오.
1) 지역~공복혈당까지 10개 변수가 이완혈압에 미치는 선형회귀분석을 수행하고, 무엇이 문제인지 언급하시오.
단) 결측치가 있을 경우 해당 행(케이스)을 제거하고 분석하시오(결측치가 있을 경우, 잔차 검증시 오류)
2) 위의 모델에 대한 예측치, 실제치, 둘 간의 차이인 잔차(residual)를 저정하고 잔차 진단 도표들을 작성해보시오.
2. 자료를 조정하여 선형회귀분석을 수행한 후, 앞의 선형회귀와 개선된 수치를 비교하시오
1) 정규성을 벗어나는 변수(3가지)를 log변환하고 ,
2) bmi 지수를 신장, 체중으로 이용해 만든 다음
3) 범주형 자료를 더미처리하여 회귀분석 및 잔차 진단을 하시오
II. Logistic Regression 과제
1. 자료 조정된 변수를 투입하여 담석여부에 미치는 로지스틱 회귀분석을 수행하시오.
1) 로지스틱 회귀분석을 수행한 후 회귀계수 및 통계량(t값, p값)을 보고 해석하시오,
2) 승산비(odds ratio)를 계산하고 95% 신뢰구간을 파악하시오
3) 담석환자일 예측확률을 계산하고, 예측률을 구하시오
2. 연령을 연령대로 변경하여 다시 로지스틱 회귀분석을 수행하시오.
변경 >> 연령대 1: 20세 이하, 2: 21~30세, 3: 31~40세, 4: 41~50세, 5: 51~60세, 6: 60세 이상
1) 연령이라는 연속형 변수에 비해 연령대의 계수 및 승산비를 비교하여 해석하시오.
학습목표
차시 | 강의명 | 학습시간 |
---|---|---|
1차시 | Python 선형 및 로짓회귀분석 강좌 #4 | 60분 |