컨텐츠 내용
- 수강신청
- 과정정보
[과제해설] 빅데이터분석 MASTER 과정_1주차
과정소개
* 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.
유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.
평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.
######### 과제 소개 ############
본 과제는 Python으로 데이터 핸들링을 수행하는 소과제 풀이 영상입니다.
데이터사이언스 Python 강좌 중 Python 소개, Python 설치하기, Python 기초, Numpy 분석함수, Pandas함수와 데이터다루기, 분석 데이터 살펴보기, 데이터 탐색과 빈도분석, 데이터 탐색과 기술통계분석 까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다.
데이터설명: 국내 대형병원 12,000명의 담낭결석 진료 환자 (실제 데이터, 비식별화를 위한 개인정보 제거)
과제 내용:
1. 데이터 불러오기 및 범주 자료의 확인
1) 데이터를 pandas 라이브러리를 ‘의학데이터’ 파일을 이용해 불러오시오. (주의: xls인지 xlsx인지 확장자 확인!)
2) 다음 범주형 변수에 대해서 인코딩 값을 설정하시오.
지역: 1=서울, 2=경기, 3=충청, 4=전라, 5=경상, 6=강원제주
성별: 1=남성, 2=여성
담석여부: 1=정상, 2=환자
3) 신장과 체중 변수를 이용하여 bmi라는 변수를 생성하시오 (bmi=체중/신장2)
4) 범주형 자료에 대해서 원도표(pie chart)와 막대도표(bar chart)를 각각 만들어보시오
2. 연속형 자료의 범주화
1) 연령을 다음의 기준으로 ‘연령대’로 범주화하시오.
1: 20세 이하
2: 21~30세
3: 31~40세
4: 41~50세
5: 51~60세
6: 60세 이상
2) 위의 기준으로 인코딩 후 막대/원도표 그래프를 작성해보시오
3. 변수/데이터 선정 및 저장하기
1) 다음의 케이스 및 변수만 선택하여 ‘selectedData’라는 새로운 데이터셋을 만드시오.
대상=남성, 51세 이상, 담석 환자만 선택 /
변수=콜레스테롤, 중성지방, 고밀도지단백, 감마지티, 공복혈당, 이완혈압, bmi
2) selectedData를 redata라는 이름의 엑셀파일로 저장하시오.
[엑셀로 저장하는 방법: 데이터셋명.to_excel(‘저장할 파일 이름.xls’)]
학습목표
차시 | 강의명 | 학습시간 |
---|---|---|
1차시 | Python 핵심 데이터다루기 #1 | 67분 |