1. 앙상블 모형

  • 여러개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법

  • 배깅

    • 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법

    • 샘플 -> 알고리즘 -> 분류

    • 평균예측모델을 구하기 때문에 분산을 줄이고 예측력을 향상 -> overfitting 모델에 사용

  • 부스팅

    • 붓스트랩 표본을 구성하는 samppling 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출

    • 분류가 잘못된 데이터에 가중치를 주어 표본을 추출한다는 점 외에는 배깅과 동일

  • 랜덤 포리스트

    • 배깅에 랜덤과정을 추가한 방법

    • 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어나가는 방법을 사용

    • 의사결정나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 만드는 방식

    • 일부 변수만 대상으로 하여 가지를 나눌 기준을 찾는 방법

  • 서포트 벡터 머신 ( SVM )

    • 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델

    • 서로 유사한 그룹끼리 칸막이 (초평면) 를 쳐서 나누는 것

    • 주로 패턴 인식 분야에 활용

    • 장점

      • 에러율이 낮다

      • 결과를 해석하기 용이하다

    • 단점

      • 튜닝 파라미터커널 선택에 민감

      • 이진분류 로만 다룰 수 있다

    • SVM에 잘 적용하려면 파라미터값 을 정하는 것이 중요

      • Cost를 사용해 과적합(overfitting) 정도를 조절하게 된다.

  • 나이브 베이즈 분류 모형

    • 베이즈정리를 기반한 방법

    • 사후확률(조건부 결합확률)의 계산시 조건부 독립을 가정하여 계산을 단순화한 방법, 사후확률이 큰 집단으로 새로운 데이터를 분류

    • 사후확률은 사전확률을 통해 예측할 수 있다

    • 장점

      • 지도학습 환경에서 매우 효율적으로 훈련, Training Data가 매우 적어도 사용 가능

      • 분류가 Multi-Class 에서 쉽고 빠르게 예측 가능

    • 단점

      • Training Data 에 없고 Test Data에 있는 범주에서는 확률이 0 으로 나타나 정상적인 예측이 불가능한 Zero Frequency가 된다.

      • 서로 확률적으로 독립이라는 가정이 위반되는 경우에 오류 발생

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석  (0) 2020.02.19
[10] 모형평가  (0) 2020.02.17
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14
[6] 시계열 예측  (0) 2020.02.13

+ Recent posts