[1][2] 분석 기획 방향성 도출
1. 분석 기획 방향성 도출
-
분석 기획의 특징
-
분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획 하는 작업
-
- 데이터 사이언스 역량
- 분석 주제 유형
-
Optimazation(최적화) - 분석 대상 및 분석 방법을 이해
-
Solution(솔루션) - 분석 과제는 수행, 분석 방법을 알지 못할 때 수행
-
Insight(통찰) - 분석 대상이 불분명, 분석 방법을 알고 있을 때 도출
-
Discovery(발견) - 분석 대상, 방법 모두 모를 때 분석 대상 자체를 새롭게 도출
-
분석 대상 | |||
분석 방법 | Known | Unknown | |
Known | 최적화(Optimazation) | 통찰(Insight) | |
Unknown | 솔루션(Solution) | 발견(Discovery) |
-
목표 시점별 분석 기획 방안
-
과제 중심적인 접근 방식
-
1차목표 - Speed & Test
-
과제의 유형 - Quick - Win (과제를 단기로 달성, 추진)
-
접근 방식 - Problem Solving
-
-
장기적인 마스터플랜 방식
-
1차목표 - Accuracy & Deploy
-
과제의 유형 - Long term view
-
접근 방식 - Problem Definition
-
-
-
분석 기획 시 고려 사항
-
가용한 데이터 - 분석을 위한 데이터 확보가 필수적임
-
적절한 유스케이스 - 유사 분석 시나리오 및 솔루션 있다면 최대한 활용
-
장애 요소들에 대한 사전 계획 수립 필요 - 충분하고 계속적인 교육 및 활용 방안 등의 변화관리가 고려
-
2. 분석 방법론
일반적으로 방법론은 계층적 프로세스 모델의 형태로 구성
-
KDD 분석 방법론
-
데이터 마이닝 프로세스
-
분석 절차
-
분석대상 이해와 프로젝트 목표 정확하게 설정
-
데이터셋 선택(Selection)
-
데이터 전처리(Preprocessing) - 잡음(Noise) , 이상값(Outlier) , 결측치 (Missing value) 식별, 필요시 제거
-
데이터 변환 (Transformation) - 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터 셋 변경
-
데이터 마이닝 (Data Mining) - 분석 목적에 맞는 기법 ,알고리즘 선택 > 패턴발견 및 데이터 분류 또는 예측
-
마이닝 결과 평가(Interpretation/Evaluation) - 분석 결과에 대한 해석과 평가 그리고 활용
-
-
Selection -> Preprocessing -> Transformation -> Data Mining -> Interpretation / Evaluation
-
-
CRISP-DM 분석 방법론
-
계층적 프로세스 모델 ( 4개 레벨로 구성 , 단계 간 피드백 )
-
분석 절차
-
업무 이해 - 도메인 지식을 데이터 분석을 위한 문제정의로 변경
-
데이터 이해 - 데이터 수집,데이터 속성을 이해, 데이터 품질 문제점 식별, 숨겨져 있는 인사이트 발견
-
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
-
-
데이터 준비 - 분석 기법에 적합한 데이터셋을 편성
-
분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
-
-
모델링 - 모델링 기법과 알고리즘 선택, 모델링 과정에 사용되는 파라미터를 최적화, 모델 과적합 해결
-
모델 과적합 - 전체 모집단은 가지고 있지않고 훈련데이터 집합만 가지고 있는 특징까지 기계학습 해버려서 불필요한 것 까지 배우는 것
-
-
평가 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
-
전개 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
-
-
KDD와 CRISP-DM 비교
KDD
CRSIP - DM
분석 대상 비즈니스 이해
업무 이해
데이터셋 선택
데이터 이해
데이터 전처리
데이터 변환
데이터 준비
데이터 마이닝
모델링
데이터 마이닝 결과 평가
평가
데이터 마이닝 활용
전개
-
빅데이터 분석 방법론
-
분석 기획 - 문제점 인식 , 분석 계획 및 프로젝트 수행계획 수립
-
SOW ( Statement of Work )를 작성
-
프로젝트 목표 및 KPI ( 핵심성과지표 ) ,목표수준 구체화
-
WBS (전체 업무를 분류하여 구성요소로 만든 후 각 요소를 평가하고 일정별로 계획하며 그것을 완수 할 수 있는 사람에게 할당해주는 역할) 작성
-
-
데이터 준비 - 데이터 분석에 필요한 원천 데이터를 정의하고 준비
-
필요 데이터 정의
-
ERD(데이터들의 관계를 표현한 도식화된 그림), 메타데이터 정의서 등, 데이터 정의서를 작성
-
-
데이터 스토어 설계
-
정형 데이터 스토어 설계 - 일반적으로 RDBMS를 사용
-
비정형 데이터 스토어 설계 - NoSQL, 하둡을 사용
-
-
데이터 수집 및 정합성 점검
-
API , ETL , 크롤링 등을 이용해 데이터를 수집, 스토어에 저장
-
ETL - 데이터 추출, 변환 , 적재의 약자. BI 구현을 위한 기본 구성 요소 가운데 하나
-
API - 응용 프로그램에서 사용 할 수 있도록 운영체제나 프로그래밍 언어가 기능을 제어할 수 있게 만든 인터페이스
-
크롤링 - 웹페이지를 그대로 가져와 데이터를 추출하는 것
-
-
-
-
데이터 분석 - 데이터셋 편성, 분석 기법과 알고리즘을 이용
-
분석용 데이터 준비
-
텍스트 분석
-
텍스트로부터 분석 목적에 맞는 적절한 모델을 구축
-
-
탐색적 분석(EDA)
-
다양한 관점별로 기초 통계량을 산출
-
데이터 특성 및 데이터 통계적 특성을 이해
-
-
모델링 - 데이터 분류, 예측, 군집 등의 기능을 수행하는 모델을 만듦
-
데이터 분할 - 훈련용과 테스트용으로 분할 ( 과적합 방지 )
-
데이터 모델링 - 모델을 만들어 가동 중인 운영 시스템에 적용
-
모델 적용 및 운영 방안 - 모델에 대한 상세한 알고리즘 작성
-
-
모델 평가 및 검증
-
-
시스템 구현
-
설계 및 구현
-
-
평가 및 전개
-
모델 발전 계획 수립 - 모델의 계속성을 확보
-
프로젝트 평가 보고
-
-
-