ADSP/2강) 데이터 분석기획

[1][2] 분석 기획 방향성 도출

Leepaper 2020. 2. 4. 20:44

1. 분석 기획 방향성 도출

  • 분석 기획의 특징

    • 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획 하는 작업

  • 데이터 사이언스 역량

데이터 사이언스 역량

  • 분석 주제 유형
    1. Optimazation(최적화) - 분석 대상 및 분석 방법을 이해

    2. Solution(솔루션) - 분석 과제는 수행, 분석 방법을 알지 못할 때 수행

    3. Insight(통찰) - 분석 대상이 불분명, 분석 방법을 알고 있을 때 도출

    4. Discovery(발견) - 분석 대상, 방법 모두 모를 때 분석 대상 자체를 새롭게 도출

  분석 대상
분석 방법   Known Unknown
Known 최적화(Optimazation) 통찰(Insight)
Unknown 솔루션(Solution) 발견(Discovery)
  • 목표 시점별 분석 기획 방안

    • 과제 중심적인 접근 방식

      • 1차목표 - Speed & Test

      • 과제의 유형 - Quick - Win (과제를 단기로 달성, 추진)

      • 접근 방식 - Problem Solving

    • 장기적인 마스터플랜 방식

      • 1차목표 - Accuracy & Deploy

      • 과제의 유형 - Long term view

      • 접근 방식 - Problem Definition

  • 분석 기획 시 고려 사항

    1. 가용한 데이터 - 분석을 위한 데이터 확보가 필수적임

    2. 적절한 유스케이스 - 유사 분석 시나리오 및 솔루션 있다면 최대한 활용

    3. 장애 요소들에 대한 사전 계획 수립 필요 - 충분하고 계속적인 교육 및 활용 방안 등의 변화관리가 고려

2. 분석 방법론

일반적으로 방법론은 계층적 프로세스 모델의 형태로 구성

  • KDD 분석 방법론

    • 데이터 마이닝 프로세스

    • 분석 절차

      1. 분석대상 이해와 프로젝트 목표 정확하게 설정

      2. 데이터셋 선택(Selection)

      3. 데이터 전처리(Preprocessing) - 잡음(Noise) , 이상값(Outlier) , 결측치 (Missing value) 식별, 필요시 제거

      4. 데이터 변환 (Transformation) - 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터 셋 변경

      5. 데이터 마이닝 (Data Mining) - 분석 목적에 맞는 기법 ,알고리즘 선택 > 패턴발견 및 데이터 분류 또는 예측

      6. 마이닝 결과 평가(Interpretation/Evaluation) - 분석 결과에 대한 해석과 평가 그리고 활용

    • Selection -> Preprocessing -> Transformation -> Data Mining -> Interpretation / Evaluation

  • CRISP-DM 분석 방법론

    • 계층적 프로세스 모델 ( 4개 레벨로 구성 , 단계 간 피드백 )

    • 분석 절차

      1. 업무 이해 - 도메인 지식을 데이터 분석을 위한 문제정의로 변경

      2. 데이터 이해 - 데이터 수집,데이터 속성을 이해, 데이터 품질 문제점 식별, 숨겨져 있는 인사이트 발견

        • 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

      3. 데이터 준비 - 분석 기법에 적합한 데이터셋을 편성

        • 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅

      4. 모델링 - 모델링 기법과 알고리즘 선택, 모델링 과정에 사용되는 파라미터를 최적화, 모델 과적합 해결 

        • 모델 과적합 - 전체 모집단은 가지고 있지않고 훈련데이터 집합만 가지고 있는 특징까지 기계학습 해버려서 불필요한 것 까지 배우는 것

      5. 평가 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

      6. 전개 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

    • KDD와 CRISP-DM 비교

      KDD

      CRSIP - DM

      분석 대상 비즈니스 이해

      업무 이해

      데이터셋 선택 

      데이터 이해

      데이터 전처리

      데이터 변환

      데이터 준비

      데이터 마이닝

      모델링

      데이터 마이닝 결과 평가

      평가

      데이터 마이닝 활용

      전개

    • 빅데이터 분석 방법론

      1. 분석 기획 - 문제점 인식 , 분석 계획 및 프로젝트 수행계획 수립

        • SOW ( Statement of Work )를 작성

        • 프로젝트 목표 및 KPI ( 핵심성과지표 ) ,목표수준 구체화

        • WBS (전체 업무를 분류하여 구성요소로 만든 후 각 요소를 평가하고 일정별로 계획하며 그것을 완수 할 수 있는 사람에게 할당해주는 역할) 작성

      2. 데이터 준비 - 데이터 분석에 필요한 원천 데이터를 정의하고 준비 

        1. 필요 데이터 정의

          • ERD(데이터들의 관계를 표현한 도식화된 그림), 메타데이터 정의서 등, 데이터 정의서를 작성

        2. 데이터 스토어 설계 

          • 정형 데이터 스토어 설계 - 일반적으로 RDBMS를 사용

          • 비정형 데이터 스토어 설계 - NoSQL, 하둡을 사용 

        3. 데이터 수집 및 정합성 점검

          • API , ETL , 크롤링 등을 이용해 데이터를 수집, 스토어에 저장

            • ETL - 데이터 추출, 변환 , 적재의 약자. BI 구현을 위한 기본 구성 요소 가운데 하나

            • API - 응용 프로그램에서 사용 할 수 있도록  운영체제나 프로그래밍 언어가 기능을 제어할 수 있게 만든 인터페이스

            • 크롤링 - 웹페이지를 그대로 가져와 데이터를 추출하는 것

      3. 데이터 분석 - 데이터셋 편성, 분석 기법과 알고리즘을 이용

        1. 분석용 데이터 준비

        2. 텍스트 분석

          • 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축

        3. 탐색적 분석(EDA)

          • 다양한 관점별로 기초 통계량을 산출

          • 데이터 특성 및 데이터 통계적 특성을 이해

        4. 모델링 - 데이터 분류, 예측, 군집 등의 기능을 수행하는 모델을 만듦

          1. 데이터 분할 - 훈련용과 테스트용으로 분할 ( 과적합 방지 )

          2. 데이터 모델링 - 모델을 만들어 가동 중인 운영 시스템에 적용

          3. 모델 적용 및 운영 방안 - 모델에 대한 상세한 알고리즘 작성

        5. 모델 평가 및 검증

      4. 시스템 구현

        • 설계 및 구현

      5. 평가 및 전개

        1. 모델 발전 계획 수립 - 모델의 계속성을 확보

        2. 프로젝트 평가 보고