1. 신경망 모형

  • 인공신경망

    • 분류(classifcation) , 군집화(clustering)를 할 수 있음

    • Input Layer -> Hidden Layer -> Output Layer

    • 지도학습의 한 방법

      • 역전파 알고리즘

        • 인공신경망을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘

        • 역전파 : 오차(에러)가 본래 진행 방향과 반대 방향으로 전파된다 하여 붙여진 이름

      • 예측분석에 사용

    • neuralnet / nnet R 패키지 활용

  • 신경망학습 -> 가중치(weight)의 조절 작업

    • 입력값을 입력층에 넣음 -> 모델의 출력값이 원하는 출력값과 같은지 확인 -> 같지 않다면 가중치 조절

    • output = f(w_0 + w_1 input_1 + w_2 input_2 + w_3 input_3)

    • f () : 활성함수, 결과의 범위를 제한, 계산의 편의성을 제공 

      • 시그모이드 함수(미분)

      • 부호 함수

      • 소프트맥스 함수

    • 신경망의 은닉층 및 은닉 노드 수를 정할 때 고려해야 할 사항

      • 다층신경망은 단층신경망에 비해 훈련이 어렵다

      • 노드가 많을수록 복잡성을 잡아내기 쉽지만, 과적합의 가능성도 높아짐

      • 은닉층 노드가 너무 적으면 복잡한 의사결정 경계를 만들 수 없음

      • 시그모이드 활성함수를 가지는 2개 층의 네트워크는 임의의 의사 결정 경계를 모형화 할 수 있음

      • 출력층 노드의 수는 출력 범주의 수 로 결정, 입력의 수는 입력 차원의 수로 결정

    • 신경망 모형의 장점

      • 변수의 수가 많거나 입력 , 출력변수 간이 복잡한 비선형 관계에 유용

      • 잡음에 대해서도 민감하게 반응하지 않음

      • 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가 가능

    • 신경망 모형의 단점

      • 결과에 대한 해석이 쉽지 않음

      • 최적의 모형을 도출하는 것이 상대적으로 어려움

      • 데이터 정규화를 하지 않으면 지역해 에 빠질 위험이 있음

      • 모형이 복잡하면 훈련 과정에 시간이 많이 소요됨

2. 의사결정나무 모형

 

  • 의사결정나무

    • 분석과정이 직관적이고 이해하기 쉬움

    • 분류(classification), 예측(prediction)

    • 구성요소

      • 뿌리마디(root node) : 시작되는 마디로 전체 자료를 포함

      • 자식마디(child node) : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들

      • 부모마디(parent node) : 주어진 마디의 상위 마디

      • 최종마디(terminal node) : 자식마디가 없는 마디

      • 중간마디(internal node) : 부모마디와 자식마디가 모두 있는 마디

      • 가지(branch) : 뿌리마디로부터 최종마디까지 연결된 마디들

      • 깊이(depth) : 뿌라마디로부터 최종마디까지의 중간 마디들의 수

    • 분석 패키지

      • tree 패키지 : binary recursive partitioning

      • repart 패키지 : CART(classification and regression trees) 방법론

        • 지니 지수를 기준으로 가지치기를 할 변수를 결정하기 때문에 상대적으로 연산속도는 빠름 But 과적합화의 위험성이 존재함

      • party 패키지 : Unbiased recursive partitioning based on permutation tests 방법론

        • p-test를 거친 Significance를 기준으로 가지치기 할 변수를 결정 -> 위험성이 낮음 But 변수제한이 31개로 됨 

    • 데이터 분할과 과대적합

      • Training set 가 정확한 결과를 보여주기 위해 복잡하게 모델을 만드는 것을 과대적합

        • 높은 정확도 But 새로운 데이터가 입력되면 잘못된 결과를 예측할 수 있음

      • 모델이 너무 간단하여 정확도가 낮은 모델을 과소적합

        • 간단함 But, training data 조차도 정확한 결과가 나오지 않을 수 있음

    • 의사결정나무 구분

      • 분류나무

        • 목표변수가 이산형

        • 상위 노드에서 가지분할을 수행할 때 분류변수와 분류 기준값의 선택방법

        • 카이제곱통계량의 p값, 지니지수, 엔트로피 지수

          • 카이제곱통계량의 p값이 작을수록, 지니지수와 엔트로피지수는 값이 클수록 자식노드내에 이질성이 큼

      • 회귀나무

        • 목표변수가 연속형

        • F통계량의 p값, 분산의 감소량

          • F통계량 : 일원배치법에서의 검정 통계량, 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미

      • 정지규칙 : 더 이상 분리가 일어나지 않음

        • 최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱통계량 , 지니 지수, 엔트로피 지수

      • 가지치기 : 최종마디가 너무 많으면 모형이 과대적합된 상태 -> 현실 문제에 적용할 수 있는 규칙이 안나옴

        • MSE(Mean Squared Error) 등을 고려하여 수준의 가지치기 규칙을 제공해야함

      • 의사결정나무 분석

        • 데이터 준비 -> 의사결정나무 만들기 -> 가지치기 -> 예측및 모델의 평가

      • rpart() 를 사용한 예측 predict()를 통해 수행하고 confusionMatrix() 함수를 이용해 정확성을 평가

      • 의사결정나무 장점

        • 구조가 단순, 해석에 용이

        • 유용한 입력변수의 파악과 예측변수 간의 상호작용 및 비선형성을 고려

        • 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형

        • 계산비용이 낮아 대규모의 데이터셋에서도 비교적 빠르게 연산이 가능

        • 수치형/범주형 변수를 모두 사용할 수 있음

      • 의사결정나무 단점

        • 분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 크다 (비연속성)

        • 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다

        • 새로운 자료에 대한 에측이 불안정할 수 있다.

      • 활용분야 : 고객 타켓팅, 고객들의 신용점수화, 캠페인 반응분석, 고객행동예측, 고객 세분화

  이산형 목표변수 연속형 목표변수
CHAID 카이제곱통계량 ANOVA F통계량
CART 지니 지수 분산 감소량
C4.5 엔트로피 지수  

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[10] 모형평가  (0) 2020.02.17
[9] 앙상블 모형  (0) 2020.02.16
[7] 데이터마이닝  (0) 2020.02.14
[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12

+ Recent posts