메인메뉴로 이동 본문으로 이동

lnb영역

데이터사이언스
과정

컨텐츠 내용

  1. 수강신청
  2. 과정정보

Case Study-Python Textmining Movie Rating Prediction Modeling

과정 이미지
Case Study-Python Textmining Movie Rating Prediction Modeling 과정정보
수강기간 30일
강의구성 1차시
수강료 무료
과정소개

 

 * 본 강의는 데이터캠퍼스 유료회원만 신청이 가능한 과정입니다.

 

유료회원은 이용하고자 하는 케이스 강의를 신청 해주시면 관리자가 확인 후 수강이 가능하도록 조치해 드립니다.

평일 근무시간 기준으로 1시간 이내 수강 가능하며, 주말에는 월요일 오전 중에 수강이 가능하도록 조치해드립니다.

 

######### 과제 소개 ############


본 과제는 Python으로 Text 자료를 전처리하고 기본적인 빈도 및 연관분석을 수행하는 소과제 풀이 영상입니다. 

데이터사이언스 Python 강좌 중 한글문서의 텍스트마이닝 전과정(전처리, 빈도분석과 Word Clouding, 단어연관과 Word Network, Sentiment Analysis, Word Clustering, Document Clustering, LDA와 Topic Modeling, word2vec, doc2vec) 까지 수강하신 분 중 본인의 실력테스트 및 실전 데이터를 다루는 연습을 하고자 하는 수강생들에게 적합한 과제입니다. 


데이터설명: 한글로 된 영화평 및 평점 텍스트 데이터

 

소과제 내용: 


1. ‘movies_raing_small.xls'자료를 불러와 영화 평가(document)에 대해서 분석을 수행하시오.

1) 한글 전처리를 수행하시오. (가. 2글자 이상, 나. ‘영화’, ‘평점’ 단어 제거 )

2) 한글 빈도 상위 100개를 가지고 워드 클라우드를 작성하시오.

3) 한글 빈도 상위 20개 간의 네트워크를 작성하시오.


2. 영화 평가에 대한 doc2vec을 수행한 후, 평가 변수(label / 0: 좋지 않음 1: 좋음) 데이터와 병합하시오.


3. 1만개 중 8,000개는 평가 label이 있는 반면, 2,000개는 평가 label이 없습니다. 8,000개의 평가내용(doc2vec의 좌표)와 평가변수(label)의 예측모델을 수행하고, 이를 바탕으로 2,000개를 예측하시오.

 

학습목표
한글 Text Mining 100% 활용하기!
강의목차
차시 강의명 학습시간
1차시 Python 텍스트마이닝 영화평점 예측모델링 #8 71분