[8] 신경망 모형

2020. 2. 15. 23:52

1. 신경망 모형

인공신경망
- 분류(classifcation) , 군집화(clustering)를 할 수 있음
- Input Layer -> Hidden Layer -> Output Layer
- 지도학습의 한 방법
  - 역전파 알고리즘
    - 인공신경망을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘
    - 역전파 : 오차(에러)가 본래 진행 방향과 반대 방향으로 전파된다 하여 붙여진 이름
  - 예측분석에 사용
- neuralnet / nnet R 패키지 활용
신경망학습 -> 가중치(weight)의 조절 작업
- 입력값을 입력층에 넣음 -> 모델의 출력값이 원하는 출력값과 같은지 확인 -> 같지 않다면 가중치 조절
- output = f(w_0 + w_1 input_1 + w_2 input_2 + w_3 input_3)
- f () : 활성함수, 결과의 범위를 제한, 계산의 편의성을 제공
  - 시그모이드 함수(미분)
  - 부호 함수
  - 소프트맥스 함수
- 신경망의 은닉층 및 은닉 노드 수를 정할 때 고려해야 할 사항
  - 다층신경망은 단층신경망에 비해 훈련이 어렵다
  - 노드가 많을수록 복잡성을 잡아내기 쉽지만, 과적합의 가능성도 높아짐
  - 은닉층 노드가 너무 적으면 복잡한 의사결정 경계를 만들 수 없음
  - 시그모이드 활성함수를 가지는 2개 층의 네트워크는 임의의 의사 결정 경계를 모형화 할 수 있음
  - 출력층 노드의 수는 출력 범주의 수 로 결정, 입력의 수는 입력 차원의 수로 결정
- 신경망 모형의 장점
  - 변수의 수가 많거나 입력 , 출력변수 간이 복잡한 비선형 관계에 유용
  - 잡음에 대해서도 민감하게 반응하지 않음
  - 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가 가능
- 신경망 모형의 단점
  - 결과에 대한 해석이 쉽지 않음
  - 최적의 모형을 도출하는 것이 상대적으로 어려움
  - 데이터 정규화를 하지 않으면 지역해 에 빠질 위험이 있음
  - 모형이 복잡하면 훈련 과정에 시간이 많이 소요됨

2. 의사결정나무 모형

의사결정나무
- 분석과정이 직관적이고 이해하기 쉬움
- 분류(classification), 예측(prediction)
- 구성요소
  - 뿌리마디(root node) : 시작되는 마디로 전체 자료를 포함
  - 자식마디(child node) : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
  - 부모마디(parent node) : 주어진 마디의 상위 마디
  - 최종마디(terminal node) : 자식마디가 없는 마디
  - 중간마디(internal node) : 부모마디와 자식마디가 모두 있는 마디
  - 가지(branch) : 뿌리마디로부터 최종마디까지 연결된 마디들
  - 깊이(depth) : 뿌라마디로부터 최종마디까지의 중간 마디들의 수
- 분석 패키지
  - tree 패키지 : binary recursive partitioning
  - repart 패키지 : CART(classification and regression trees) 방법론
    - 지니 지수를 기준으로 가지치기를 할 변수를 결정하기 때문에 상대적으로 연산속도는 빠름 But 과적합화의 위험성이 존재함
  - party 패키지 : Unbiased recursive partitioning based on permutation tests 방법론
    - p-test를 거친 Significance를 기준으로 가지치기 할 변수를 결정 -> 위험성이 낮음 But 변수제한이 31개로 됨
- 데이터 분할과 과대적합
  - Training set 가 정확한 결과를 보여주기 위해 복잡하게 모델을 만드는 것을 과대적합
    - 높은 정확도 But 새로운 데이터가 입력되면 잘못된 결과를 예측할 수 있음
  - 모델이 너무 간단하여 정확도가 낮은 모델을 과소적합
    - 간단함 But, training data 조차도 정확한 결과가 나오지 않을 수 있음
- 의사결정나무 구분
  - 분류나무
    - 목표변수가 이산형
    - 상위 노드에서 가지분할을 수행할 때 분류변수와 분류 기준값의 선택방법
    - 카이제곱통계량의 p값, 지니지수, 엔트로피 지수
      - 카이제곱통계량의 p값이 작을수록, 지니지수와 엔트로피지수는 값이 클수록 자식노드내에 이질성이 큼
  - 회귀나무
    - 목표변수가 연속형
    - F통계량의 p값, 분산의 감소량
      - F통계량 : 일원배치법에서의 검정 통계량, 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미
  - 정지규칙 : 더 이상 분리가 일어나지 않음
    - 최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱통계량 , 지니 지수, 엔트로피 지수
  - 가지치기 : 최종마디가 너무 많으면 모형이 과대적합된 상태 -> 현실 문제에 적용할 수 있는 규칙이 안나옴
    - MSE(Mean Squared Error) 등을 고려하여 수준의 가지치기 규칙을 제공해야함
  - 의사결정나무 분석
    - 데이터 준비 -> 의사결정나무 만들기 -> 가지치기 -> 예측및 모델의 평가
  - rpart() 를 사용한 예측 predict()를 통해 수행하고 confusionMatrix() 함수를 이용해 정확성을 평가함
  - 의사결정나무 장점
    - 구조가 단순, 해석에 용이
    - 유용한 입력변수의 파악과 예측변수 간의 상호작용 및 비선형성을 고려
    - 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형
    - 계산비용이 낮아 대규모의 데이터셋에서도 비교적 빠르게 연산이 가능
    - 수치형/범주형 변수를 모두 사용할 수 있음
  - 의사결정나무 단점
    - 분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 크다 (비연속성)
    - 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다
    - 새로운 자료에 대한 에측이 불안정할 수 있다.
  - 활용분야 : 고객 타켓팅, 고객들의 신용점수화, 캠페인 반응분석, 고객행동예측, 고객 세분화

	이산형 목표변수	연속형 목표변수
CHAID	카이제곱통계량	ANOVA F통계량
CART	지니 지수	분산 감소량
C4.5	엔트로피 지수

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[10] 모형평가 (0)	2020.02.17
[9] 앙상블 모형 (0)	2020.02.16
[7] 데이터마이닝 (0)	2020.02.14
[6] 시계열 예측 (0)	2020.02.13
[5] 기초 통계분석(2) (0)	2020.02.12

Programmiry

[8] 신경망 모형

1. 신경망 모형

2. 의사결정나무 모형

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바