1. 앙상블 모형
-
여러개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
-
배깅
-
원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법
-
샘플 -> 알고리즘 -> 분류
-
평균예측모델을 구하기 때문에 분산을 줄이고 예측력을 향상 -> overfitting 모델에 사용
-
-
부스팅
-
붓스트랩 표본을 구성하는 samppling 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출
-
분류가 잘못된 데이터에 가중치를 주어 표본을 추출한다는 점 외에는 배깅과 동일
-
-
랜덤 포리스트
-
배깅에 랜덤과정을 추가한 방법
-
예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어나가는 방법을 사용
-
의사결정나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 만드는 방식
-
일부 변수만 대상으로 하여 가지를 나눌 기준을 찾는 방법
-
-
서포트 벡터 머신 ( SVM )
-
서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델
-
서로 유사한 그룹끼리 칸막이 (초평면) 를 쳐서 나누는 것
-
주로 패턴 인식 분야에 활용
-
장점
-
에러율이 낮다
-
결과를 해석하기 용이하다
-
-
단점
-
튜닝 파라미터 및 커널 선택에 민감
-
이진분류 로만 다룰 수 있다
-
-
SVM에 잘 적용하려면 파라미터값 을 정하는 것이 중요
-
Cost를 사용해 과적합(overfitting) 정도를 조절하게 된다.
-
-
-
나이브 베이즈 분류 모형
-
베이즈정리를 기반한 방법
-
사후확률(조건부 결합확률)의 계산시 조건부 독립을 가정하여 계산을 단순화한 방법, 사후확률이 큰 집단으로 새로운 데이터를 분류
-
사후확률은 사전확률을 통해 예측할 수 있다
-
장점
-
지도학습 환경에서 매우 효율적으로 훈련, Training Data가 매우 적어도 사용 가능
-
분류가 Multi-Class 에서 쉽고 빠르게 예측 가능
-
-
단점
-
Training Data 에 없고 Test Data에 있는 범주에서는 확률이 0 으로 나타나 정상적인 예측이 불가능한 Zero Frequency가 된다.
-
서로 확률적으로 독립이라는 가정이 위반되는 경우에 오류 발생
-
-
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[11] 군집분석 (0) | 2020.02.19 |
---|---|
[10] 모형평가 (0) | 2020.02.17 |
[8] 신경망 모형 (0) | 2020.02.15 |
[7] 데이터마이닝 (0) | 2020.02.14 |
[6] 시계열 예측 (0) | 2020.02.13 |