메인메뉴로 이동 본문으로 이동

컨텐츠 내용

  1. 캠퍼스소개
  2. 프로젝트 스토리

프로젝트 스토리

프로젝트 스토리 조회 페이지
개인정보 네트워크분석 및 위험률 예측분석 데****스 / 2020.02.08
picture01.png picture02.png picture03.png picture04.png picture05.png


▶ 프로젝트 배경

 

본 프로젝트는 데이터캠퍼스 모기업인 와이즈인컴퍼니가 2013년도에 수행한 연구 과업입니다. 현재에서 사회적 문제가 되지만, 2010년도를 전후하여 기업이 보유하고 있는 개인정보 (주민등록번호 등)의 유출문제가 심각하게 대두되고 있었습니다. 이에 관련 공공기관에서는 과연 기업이 수집한 개인정보가 어떻게 흘러가고 있는지, 어떤 기업이 리스크가 큰지, 이에 따라 어디를 중점 관리해야 하는지를 데이터 분석을 기반으로 도출하기를 희망하고 있었습니다.

 

이에 와이즈인컴퍼니는 아래와 같이 기업의 일반사항, 개인정보처리에 대한 사항 등을 기준으로 약 1만 여개 기업의 홈페이지를 웹크롤링 및 연구인력의 분석을 병행하여 모델링을 하였습니다.

 

picture01.png

 

▶ 주요 결과물

 

우선적으로 수집된 1만여개 기업의 개인정보 흐름을 파악하기 위해서 네트워크 분석기법(network)을 활용하여 어떻게 수집된 정보가 흘러가고 있는지를 분석하였습니다. 아래에서 보는 바와 같이 정보서비스업과 금융업 내부 기업간, 그리고 두 업종 간의 개인정보의 거래가 가장 많이 이루어지고 있었습니다. 사회적 이슈가 되었던 기업들이 대부분 금융기업과 전자정보 기업인 것은 이러한 결과와 무관하지 않았습니다.

 

 

picture02.png

 

 

 

그 중에서 주민등록번호를 포함한 개인정보를 가장 많이 다른 업체에 제공해주는 10개 기관을 잡아냈습니다. 아래의 그림에서 흰박스를 칠한 곳입니다. 정보보호상 오픈할 수는 없지만, 실제 10개 기업 중 2군데에서 개인정보 유출의 문제가 발생하였었습니다.

 

picture03.png

 

 

또한 개인정보 민원이 가장 많이 발생한 10개 업체의 정보흐름 네트워크를 파악해보니, 통신회사에서 개인정보 유출관련 민원발생이 가장 많이 나타났고, 이에 대한 관리가 필요하다고 데이터가 말해주고 있습니다. 이 외에도 네트워크 분석을 통해 각 개별 기업의 흐름을 정확하게 분석할 수 있었습니다. 

 

picture04.png

 

또한 기업 정보를 원인변수로 하고 민원발생을 결과변수로 하여 다변량 예측모델링을 수행한 결과, 기존에 사람이 하던 민원발생 기업을 잡아내는 예측력이 18% 수준인 반면, 모델링 결과는 83% 가량 정확도가 향상되었습니다. 이로 인해 개별 기업에 대한 동일한 모니터링이 아니라 문제가 발생할 가능성이 높은 기업을 중점적으로 관리하여 개인정보의 보호와 사회적 문제를 최소화하는 데에 기여한 프로젝트입니다.

 

picture05.png

 

 

▶ 프로젝트 뒷 이야기

 

본 프로젝트는 사회적 문제를 데이터 기반으로 명확하게 한 사례입니다. 사람의 감으로 문제가 될 것 같은 기업을 관리감도하는 것이 아니라 데이터 기반의 예측과 네트워크분석을 통해서 어떤 기업이 문제가 발생할 여지가 높으며, 또한 이 기업은 어느 기업에게 정보를 전달하고 있어 파생적으로 관리를 해야 하는지에 대한 맵(map)을 제시한 연구입니다.

 

이러한 분석을 위해서는 고난이도 네트워크 분석이 요구되지는 않습니다. 다만 네트워크 분석의 개념과 활용을 파악하고 정보간의 흐름을 시각화할 줄 알면 됩니다. 분석도구 역시 거창한 유료 프로그램이 아니라 엑셀노드와 같은 심플한 분석으로도 충분히 가능하였습니다.

또한 예측 모델링은 회귀분석, 그 중 로지스틱 회귀분석을 통해 민원발생여부에 미치는 기업 요인을 모델링한 것입니다. 이는 회귀분석에 대한 개념과 활용을 알고 있다면 충분히 모델링할 수 있는 과제입니다.

 

이렇듯 고급수준의 분석만이 엄청난 인사이트를 가져오는 것은 아닙니다. 어떤 결과를 얻기 위해 어떤 분석법이 활용되어야 하는가.... 이것이 핵심입니다.

분석을 다양하게 알아야 그에 맞는 적합한 기법을 적용할 수 있겠죠.


데이터캠퍼스의 분석방법을 다양하게 알고 계신다면, 여러분들도 하실 수 있는 프로젝트입니다

read 페이지 바
이전 글

공공기관의 보유기술과 수요기업의 매칭 분석

 파일첨부  
2020.02.10
다음 글 다음 글이 없습니다.