컨텐츠 내용
- 수강신청
- 과정정보
Case Study-Python Machine Learning A to Z Preview

과정소개
* 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.
유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.
평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.
######### 과제 소개 ############
본 과제는 Python으로 머신러닝의 전체 과정을 KNN 알고리즘을 이용해 수행하는 소과제 풀이 영상입니다.
데이터사이언스 Python 강좌 중 KNN을 이용한 머신러닝의 전반적인 과정 강의(머신러닝의 개념, 머신러닝 프로세스, K-최근접 이웃(KNN)의 개념과 원리, 머신러닝 맛보기, 데이터 스케일링과 범주특성의 변환, 데이터 셋 나누기, 모델 훈련과 세부튜닝, 모델 평가, 다중분류) 까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다.
데이터설명: 은행거래고객의 신용정보 데이터
소과제 내용:
1. ‘MLatoz.xls'자료를 이용해 KNN을 수행해보시오.
1) 데이터설명: 은행에서 대출여부를 예측하는 머신러닝 모델링을 구축하려고 한다. 700명의 기존 거래 고객데이터로 701명~851명의 새로운 고객에게 대출을 해줄지를 예측하는 것이 과제이다. 즉 레이블변수는 ‘상환불이행여부’로서 0은 대출을 상환했던 고객, 1은 불이행했던 고객을 의미한다.
2) 데이터셋: 851개 중 1~700개를 가지고 train data, test data로 구분. 701~851개는 추후 최종모델로 예측
[다음의 과정에 따라서 수행해보시오]
1) 데이터 범주화 및 정규화를 진행해보시오
- 범주화: 교육수준(1: 중졸, 2: 고졸, 3: 대학, 4: 대학원)
- 정규화: 그 외 모든 독립/특성 변수
2) 분석용데이터와 신규고객데이터 나누고 분석용데이터에 대해서 train/test set을 7:3으로구분하시오
- 분석용데이터: 1~700번째 데이터
- 신규고객데이터: 701~850번째 데이터
3) KNN모델을 적용하고 Grid Search를 하여 최적의 k를 찾으시오
4) 최종 knn모델로 신규고객데이터의 상환불이행여부를 예측하시오(예측범주, 예측확률)
학습목표
차시 | 강의명 | 학습시간 |
---|---|---|
1차시 | Python 머신러닝 A to Z 따라하기 강좌 #8 | 64분 |