1. 신경망 모형
-
인공신경망
-
분류(classifcation) , 군집화(clustering)를 할 수 있음
-
Input Layer -> Hidden Layer -> Output Layer
-
지도학습의 한 방법
-
역전파 알고리즘
-
인공신경망을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘
-
역전파 : 오차(에러)가 본래 진행 방향과 반대 방향으로 전파된다 하여 붙여진 이름
-
-
예측분석에 사용
-
-
neuralnet / nnet R 패키지 활용
-
-
신경망학습 -> 가중치(weight)의 조절 작업
-
입력값을 입력층에 넣음 -> 모델의 출력값이 원하는 출력값과 같은지 확인 -> 같지 않다면 가중치 조절
-
output = f(w_0 + w_1 input_1 + w_2 input_2 + w_3 input_3)
-
f () : 활성함수, 결과의 범위를 제한, 계산의 편의성을 제공
-
시그모이드 함수(미분)
-
부호 함수
-
소프트맥스 함수
-
-
신경망의 은닉층 및 은닉 노드 수를 정할 때 고려해야 할 사항
-
다층신경망은 단층신경망에 비해 훈련이 어렵다
-
노드가 많을수록 복잡성을 잡아내기 쉽지만, 과적합의 가능성도 높아짐
-
은닉층 노드가 너무 적으면 복잡한 의사결정 경계를 만들 수 없음
-
시그모이드 활성함수를 가지는 2개 층의 네트워크는 임의의 의사 결정 경계를 모형화 할 수 있음
-
출력층 노드의 수는 출력 범주의 수 로 결정, 입력의 수는 입력 차원의 수로 결정
-
-
신경망 모형의 장점
-
변수의 수가 많거나 입력 , 출력변수 간이 복잡한 비선형 관계에 유용
-
잡음에 대해서도 민감하게 반응하지 않음
-
입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가 가능
-
-
신경망 모형의 단점
-
결과에 대한 해석이 쉽지 않음
-
최적의 모형을 도출하는 것이 상대적으로 어려움
-
데이터 정규화를 하지 않으면 지역해 에 빠질 위험이 있음
-
모형이 복잡하면 훈련 과정에 시간이 많이 소요됨
-
-
2. 의사결정나무 모형
-
의사결정나무
-
분석과정이 직관적이고 이해하기 쉬움
-
분류(classification), 예측(prediction)
-
구성요소
-
뿌리마디(root node) : 시작되는 마디로 전체 자료를 포함
-
자식마디(child node) : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
-
부모마디(parent node) : 주어진 마디의 상위 마디
-
최종마디(terminal node) : 자식마디가 없는 마디
-
중간마디(internal node) : 부모마디와 자식마디가 모두 있는 마디
-
가지(branch) : 뿌리마디로부터 최종마디까지 연결된 마디들
-
깊이(depth) : 뿌라마디로부터 최종마디까지의 중간 마디들의 수
-
-
분석 패키지
-
tree 패키지 : binary recursive partitioning
-
repart 패키지 : CART(classification and regression trees) 방법론
-
지니 지수를 기준으로 가지치기를 할 변수를 결정하기 때문에 상대적으로 연산속도는 빠름 But 과적합화의 위험성이 존재함
-
-
party 패키지 : Unbiased recursive partitioning based on permutation tests 방법론
-
p-test를 거친 Significance를 기준으로 가지치기 할 변수를 결정 -> 위험성이 낮음 But 변수제한이 31개로 됨
-
-
-
데이터 분할과 과대적합
-
Training set 가 정확한 결과를 보여주기 위해 복잡하게 모델을 만드는 것을 과대적합
-
높은 정확도 But 새로운 데이터가 입력되면 잘못된 결과를 예측할 수 있음
-
-
모델이 너무 간단하여 정확도가 낮은 모델을 과소적합
-
간단함 But, training data 조차도 정확한 결과가 나오지 않을 수 있음
-
-
-
의사결정나무 구분
-
분류나무
-
목표변수가 이산형
-
상위 노드에서 가지분할을 수행할 때 분류변수와 분류 기준값의 선택방법
-
카이제곱통계량의 p값, 지니지수, 엔트로피 지수
-
카이제곱통계량의 p값이 작을수록, 지니지수와 엔트로피지수는 값이 클수록 자식노드내에 이질성이 큼
-
-
-
회귀나무
-
목표변수가 연속형
-
F통계량의 p값, 분산의 감소량
-
F통계량 : 일원배치법에서의 검정 통계량, 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미
-
-
-
정지규칙 : 더 이상 분리가 일어나지 않음
-
최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱통계량 , 지니 지수, 엔트로피 지수
-
-
가지치기 : 최종마디가 너무 많으면 모형이 과대적합된 상태 -> 현실 문제에 적용할 수 있는 규칙이 안나옴
-
MSE(Mean Squared Error) 등을 고려하여 수준의 가지치기 규칙을 제공해야함
-
-
의사결정나무 분석
-
데이터 준비 -> 의사결정나무 만들기 -> 가지치기 -> 예측및 모델의 평가
-
-
rpart() 를 사용한 예측 predict()를 통해 수행하고 confusionMatrix() 함수를 이용해 정확성을 평가함
-
의사결정나무 장점
-
구조가 단순, 해석에 용이
-
유용한 입력변수의 파악과 예측변수 간의 상호작용 및 비선형성을 고려
-
선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형
-
계산비용이 낮아 대규모의 데이터셋에서도 비교적 빠르게 연산이 가능
-
수치형/범주형 변수를 모두 사용할 수 있음
-
-
의사결정나무 단점
-
분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 크다 (비연속성)
-
로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다
-
새로운 자료에 대한 에측이 불안정할 수 있다.
-
-
활용분야 : 고객 타켓팅, 고객들의 신용점수화, 캠페인 반응분석, 고객행동예측, 고객 세분화
-
-
이산형 목표변수 | 연속형 목표변수 | |
CHAID | 카이제곱통계량 | ANOVA F통계량 |
CART | 지니 지수 | 분산 감소량 |
C4.5 | 엔트로피 지수 |
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[10] 모형평가 (0) | 2020.02.17 |
---|---|
[9] 앙상블 모형 (0) | 2020.02.16 |
[7] 데이터마이닝 (0) | 2020.02.14 |
[6] 시계열 예측 (0) | 2020.02.13 |
[5] 기초 통계분석(2) (0) | 2020.02.12 |