메인메뉴로 이동 본문으로 이동

lnb영역

데이터사이언스
과정

컨텐츠 내용

  1. 수강신청
  2. 과정정보

Case Study-Python Textmining Preproccessing & Exploratory Analysis

과정 이미지
Case Study-Python Textmining Preproccessing & Exploratory Analysis 과정정보
수강기간 30일
강의구성 1차시
수강료 무료
과정소개

 * 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.

 

유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.

평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.

 

######### 과제 소개 ############


본 과제는 Python으로 Text 자료를 전처리하고 기본적인 빈도 및 연관분석을 수행하는 소과제 풀이 영상입니다. 

데이터사이언스 Python 강좌 중 '텍스트마이닝 Text Mining의 개념과 활용', '텍스트마이닝 Text Mining 프로세스와 자료의 확보',  '텍스트마이닝 분석패키지 설치와 자료 불러오기',  '텍스트마이닝 Text 자료의 전처리', '텍스트마이닝 단어 빈도분석과 Word Clouding', '텍스트마이닝 단어 연관분석과 Word Network'까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다. 


데이터설명: 영화별 소개(줄거리)에 대한 텍스트 데이터


소과제 내용: 

1. ‘movies_metadata.xlsx'자료를 불러와 Text 분석을 수행하시오.

1) 영화 개요에 해당하는 overview 항목을 분석하고자 한다. overview 항목을 title 이라는 새로운 변수로 생성하시오.

2) 새로 생성된 변수를 바탕으로 전처리 과정인 문장의 공백처리 과정을 for문과 if문을 이용하여 분석을 수행하시오.

3) 공백처리 된 overview를 이용하여 불용어, 어간추출 과정 수행 및 전처리된 단어를 확인하고 Corpus로 묶는 작업을 수행하시오


2. ‘movies_metadata.xlsx'자료를 불러와 단어 빈도분석과 Word Cloud 분석을 수행하시오.

1) movies_metadata의 overview를 이용하여 DTM(Document Term Matrix) 및 TF(Term – Frequency)자료로 변환하고 Word Cloud 작업을 수행하시오.

2) 단어 및 불용어 2차 정제를 통해 분석을 수행하시오.

 2-1) 정규식을 이용해 알파벳만 남긴 후 Word Cloud 작업 수행

 2-2) 필요한 특수문자 지정하여 제거 후 Word Cloud 작업 수행

 2-3) stopwordsEN 데이터를 불러와 내 stopwords 거르기 및 일부 단어 정제 후 Word Cloud 작업 수행


3. ‘movies_metadata.xlsx'자료를 불러와 단어 연관분석과 Word Network 분석을 수행하시오.

1) 데이터를 불러와 (overview) 전처리 과정 및 자료변환 작업을 수행하시오. (공백제거/불용어/벡터화/DTM)

2) 변환된 자료를 바탕으로 단어간의 상관관계 분석을 수행하고(데이터프레임생성) 단어 엣지리스트(Edge List) 생성을 통해 Word Network를 구현하시오.


학습목표
Python으로 자유자재로 텍스트 데이터 전처리 수행하기!
강의목차
차시 강의명 학습시간
1차시 Python 텍스트마이닝 전처리와 탐색분석 강좌 #5 60분