[9] 앙상블 모형

2020. 2. 16. 22:54

1. 앙상블 모형

여러개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
배깅
- 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법
- 샘플 -> 알고리즘 -> 분류
- 평균예측모델을 구하기 때문에 분산을 줄이고 예측력을 향상 -> overfitting 모델에 사용
부스팅
- 붓스트랩 표본을 구성하는 samppling 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출
- 분류가 잘못된 데이터에 가중치를 주어 표본을 추출한다는 점 외에는 배깅과 동일
랜덤 포리스트
- 배깅에 랜덤과정을 추가한 방법
- 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어나가는 방법을 사용
- 의사결정나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 만드는 방식
- 일부 변수만 대상으로 하여 가지를 나눌 기준을 찾는 방법
서포트 벡터 머신 ( SVM )
- 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델
- 서로 유사한 그룹끼리 칸막이 (초평면) 를 쳐서 나누는 것
- 주로 패턴 인식 분야에 활용
- 장점
  - 에러율이 낮다
  - 결과를 해석하기 용이하다
- 단점
  - 튜닝 파라미터 및 커널 선택에 민감
  - 이진분류 로만 다룰 수 있다
- SVM에 잘 적용하려면 파라미터값 을 정하는 것이 중요
  - Cost를 사용해 과적합(overfitting) 정도를 조절하게 된다.
나이브 베이즈 분류 모형
- 베이즈정리를 기반한 방법
- 사후확률(조건부 결합확률)의 계산시 조건부 독립을 가정하여 계산을 단순화한 방법, 사후확률이 큰 집단으로 새로운 데이터를 분류
- 사후확률은 사전확률을 통해 예측할 수 있다
- 장점
  - 지도학습 환경에서 매우 효율적으로 훈련, Training Data가 매우 적어도 사용 가능
  - 분류가 Multi-Class 에서 쉽고 빠르게 예측 가능
- 단점
  - Training Data 에 없고 Test Data에 있는 범주에서는 확률이 0 으로 나타나 정상적인 예측이 불가능한 Zero Frequency가 된다.
  - 서로 확률적으로 독립이라는 가정이 위반되는 경우에 오류 발생

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석 (0)	2020.02.19
[10] 모형평가 (0)	2020.02.17
[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14
[6] 시계열 예측 (0)	2020.02.13

Programmiry

[9] 앙상블 모형

1. 앙상블 모형

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바