'분류 전체보기' 카테고리의 글 목록

분류 전체보기

[12] 연관분석

2020. 2. 19. 16:28

1. 연관규칙

항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴
이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 함 -> 장바구니분석이라고도 함
측정지표
- 지지도
  - 전체 거래항목 중 상품 A 와 상품 B를 동시에 포함하여 거래하는 비율을 의미
  - P ( A ∩ B ) : A와 B가 동시에 포함된 거래수 / 전체 거래 수
- 신뢰도
  - 상품 A를 포함하는 거래 중 A와 B와 동시에 거래되는 비중
  - P ( A ∩ B ) / P ( A ) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
- 향상도
  - 상품 A의 거래 중 항목 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율
  - A가 주어지지않았을 때 B의 확률대비 A가 주어졌을 때 B의 확률증가 비율
  - P ( A ∩ B ) / P(A) * P(B) = P(B|A) / P(B)
    A와 B가 동시에 일어난 횟수 / A,B가 독립사건일 때 A,B가 동시에 일어날 확률
상호관계가 없으면(독립) 향상도는 1 , 향상도가 1보다 높아질 수록 연관성이 높다고 할 수 있음
- 향상도가 1 이면 품목간에 연관성이 없다
- 향상도가 음 이면 서로 음의 상관관계를 의미
Process ( Apriori 알고리즘 : 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝힘)
- 최소 지지도를 설정
- 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다
- 2에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두가지 품목 집합을 찾는다.
- 위의 두 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾는다.
- 반복적으로 수행해 최소 지지도가 넘는 빈발품목 집합을 찾는다.
장점
- 조건반응( if - then )으로 표현되는 연관분석의 결과를 이해하기 쉬움
- 강력한 비목적성 분석 기법
- 사용이 편리한 데이터 분석
- 분석계산이 간편
단점
- 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가
- 너무 세부화된 품목을 가지고 연관규칙을 찾으려면 의미 없는 분석 결과가 도출
- 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석 (0)	2020.02.19
[10] 모형평가 (0)	2020.02.17
[9] 앙상블 모형 (0)	2020.02.16
[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14

[11] 군집분석

2020. 2. 19. 16:12

1. 군집분석

각 개체에 대해 관측된 여러 개의 변숫값들로부터 N개의 개체를 유사한 성격을 가지는 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악 하여 군집들 사이의 관계를 분석하는 다변량분석기법이다.
실루엣 : 거리가 가까울수록 높고 멀수록 낮은 지표 , 완벽히 분리된 경우 1이 되는 지표
계층적 군집
- 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
- 계통도 , 덴드로그램의 형태로 결과가 주어지며, 각 개체는 하나의 군집에만 속하게된다.
- 군집 간의 연결법에 따라 결과가 달라진다
  - 단일 연결법 : 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 ( 사슬모양 )
  - 완전 연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정
  - 평균 열결법 : 모든 항목에 대한 거리평균을 구하면서 군집화 -> 계산이 불필요하게 많아짐
  - 중심 연결법 : 두 군집의 중심간의 거리를 측정, 두 군집이 결합할 때 새로운 군집의 평균은 가중평균을 통해 구해짐
  - 와드 연결법 : 군집 내의 오차제곱합에 기초하여 군집을 수행
- 두 개체의 간의 거리에 기반하므로 거리측정 대한 정의가 필요
  - 수학적 거리
    - 유클리드
      - 두 점 사이의 거리를 계산 ( 방향성 고려 X )
    - 맨해튼 거리
      - 두 점 좌표 간의 절댓값 차이를 구하는 것
    - 민코프스키 거리
      - 가장 일반적으로 사용되는 minkowski 거리의 차수는 1, 2 ,∞ 이다.
      - q가 1이면 맨해튼 거리, q가 2이면 유클리디안 거리
  - 표준화 거리 ( 통계적 거리 )
    - 각 변수를 해당 변수의 표준편차로 척도 변환한 후 유클리드 거리를 계산한 거리
    - 마할라노비스
      - 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려
  - 계층적 군집에 사용하는 함수
    - 병합적 : agnes() , mclust()
    - 분할적 : diana() , mona()
- 계층적 군집 특징
  - 매 단계에서 지역적(local) 최적화를 수행해나가는 방법
비계층적 군집
- k-평균 군집 ( k - mean clustering )
  - 원하는 군집 수 만큼 초기값을 지정 -> 가까운 초기값을 할당하여 군집을 형성
  - 각 군집의 평균을 재계산하여 초기값을 갱신
  - Process
    1. 초기 군집 중심(centroid)으로 k개의 객체를 임의로 선택
    2. 각 자료를 가장 가까운 군집 중심에 할당, 즉 자료들의 군집의 중심점으로부터 오차제곱합이 최소가 되도록 각 자료를 할당
    3. 각 군집 내의 자료들의 평균을 계싼하여 군집의 중심을 갱신
    4. 군집 중심의 변화가 없을 때까지 단계 2와 단계 3을 반복
  - 장점
    - 알고리즘이 단순, 계층적 군집보다 많은 양의 데이터를 처리
    - 관찰치 간의 거리 데이터형태, 거의 모든 형태의 데이터에 적용이 가능
    - 내부 구조에 대한 사전적 정보 없이 의미 있는 자료로 분석 가능
  - 단점
    - 잡음이나 이상값에 영향을 받기 쉬움, 평균 대신 중앙값을 사용하는 k-medoids 군집을 사용 가능
    - 사전에 군집의 수를 정해주어야함 (Nbclust 패키지)
혼합분포군집
- 모형-기반의 군집방법
- 데이터가 k개의 모수적모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하, 모수와 함께 가중치를 자료로 부터 추정하는 방법
- k개의 각 모형은 군집을 의미
- 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM알고리즘이 사용
- EM 알고리즘
  - 혼합분포에서 잠재변수를 추정할 때 사용
  - 분석 데이터가 불완전하거나 결측치가 있고, 숨겨진 잠재변수가 있을 때 MLE추정치를 알아냄
  - 순서
    - 무작위로 k개의 클러스터를 초기화
    - 포인트가 클러스터에 포함될 확률 계산
    - MSL이 최대화하기 위한 분포의 파라미터를 계산
  - 단점 : 초기 클러스터의 개수를 정해주어야함
- k-means vs 혼합분포군집
  - k-means는 클러스터의 중심거리 / EM은 MSL 로 거리를 측정
  - 클러스터를 늘릴수록 중심에서의 평균거리가 짧아짐 / EM은 우도가 커짐
  - EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 소요 , 군집의 크기가 너무 작으면 추정의 정도가 떨어짐
  - 둘 다 이상값 자료에 민감
SOM ( 자기조직화지도)
- 인공신경망의 한 종류
- 차원 축소와 군집화를 동시에 수행하는 기법
- 입력 벡터를 훈련집합에서는 match가 되도록 가중치를 조정하는 인공 신경세포 격자에 기초한 자율학습의 한 방법
- 기능
  - Find Structures in data( 구조 탐색 ) : 데이터의 특징을 파악하여 유사데이터를 Clustering 함.
    
    고차원 데이터셋을 저차원 맵( 2D 그리드에 매핑 )에 표현하는 것, 이를 통해 입력 데이터를 유사한 그룹으로 분류
  - Dimension Reduction ( 차원 축소 ) & Visualization ( 시각화 ) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 인간이 시각적으로 인식할 수 있게 한다.
- Process
  - SOM 맵의 노드에 대한 연결 강도로 초기화
  - 입력벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력벡터와 가장 짧은 노드를 선택
  - 선택된 노드와 이웃 노드의 가중치(연결강도)를 수정
  - 단계 2로 가서 반복, 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
    
    경쟁층에는 승자 뉴런만이 남아 있음, 신경망은 역전파 알고리즘이지만
    
    SOM은 전방패스를 사용하여 속도가 매우 빠름
- 장점
  - 고차원의 데이터를 저차원의 지도 형태로 형상화
  - 입력변수의 위치 관계를 그대로 보존
- SOM vs 신경망 모형 비교
  - 신경망 모형은 연속적인 Layer로 구성 / SOM은 2차원 그리드로 구성
  - 신경망 모형은 에러를 수정 / SOM은 경쟁학습을 실시
  - SOM은 비지도학습 이다.

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석 (0)	2020.02.19
[10] 모형평가 (0)	2020.02.17
[9] 앙상블 모형 (0)	2020.02.16
[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14

[10] 모형평가

2020. 2. 17. 14:38

1. 모형평가

가장 적합한 모형을 선택하기 위한 것
- 기준
  - 일반화의 가능성 : 같은 모집단 내의 다른 데이터에 적용할 경우에도 안정적인 결과를 제공하는가?
  - 효율성 : 분류분석 모형이 얼마나 효과적으로 구축되어있는지를 평가 (적은 입력변수 ↑효율성 ↑)
  - 예측과 분류의 정확성 : 실제 문제에 적용했을 때의 정확성을 의미
- Training Data (훈련용 자료) , Test Data (검증용 자료) 를 추출 -> 과적합화 문제를 해결하기 위함
홀드아웃(hold-out) 방법
- 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법
- 전체 데이터 중 70% : 훈련용 자료 / 나머지는 검증용 자료
교차검증
- 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것
- k-fold 교차검증
  - k의 개의 subset -> k번째 subset을 검증용 자료로, 나머지 k-1개의 subset은 훈련용 자료로 사용
붓스트랩
- 교차검증에서 훈련용 자료를 반복 재선정 한다는 점에서 차이가 있음
- 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법을 기반
- 전체 데이터 양이 적은 것의 모형평가에 가장 적합
- 0.632 붓스트랩
- 오분류표
- confusion matrix
  
  Predicted Class
  
  Positive
  
  Negative
  
  Actual class
  
  Positive
  
  TP
  
  FN
  
  Negative
  
  FP
  
  TN
  - TP : 실제값과 예측치 모두 True
  - TN : 실제값과 예측치 모두 False
  - FP : 실제값은 False 이나 True로 예측
  - FN : 실제값은 True 이나 False로 예측
- 평가지표
  - Precision (TP) = TP / ( TP + FP ) : Y로 예측된 것 중 실제로도 Y인 경우의 비율
  - Accuracy = TP+TN / ( TP+FP+TN+FN ) : 전체예측에서 옳은 예측의 비율
  - Recall(Sensitivity) = TP / ( TP + FN ) : 실제로 Y인 것들 중 예측이 Y로 된 경우의 비율
  - Specificity = TN / ( FP + TN ) : 실제로 N인 것들 중 예측이 N으로 된 경우의 비율
  - FP Rate = FP / ( FP + TN ) : Y가 아닌데 Y로 예측된 비율 (1 - specificity)
  - F1 = 2*[ Precision * Recall / (Precision + Recall )] : Precision 과 Recall 의 조화평균 (0과 1사이의 값)
  - Kappa = Accuracy - P(e) / (1- P(e)) : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값 (0과 1사이의 값)
- Roc 그래프
  - 레이더 이미지 분석의 성과를 측정하기 위해 개발된 것
  - x축에는 FP Rate ( 1- specificity ) , y축에는 Recall(민감도) - 두 평갓값의 관계로 모형을 평가
  - 그래프 밑부분 면적이 넓을수록 좋은 모형
이익도표와 향상도
- 이익(gain) : 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지 나타내느 값
- 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표
- 항상도곡선 (lift curve) : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 파악하는 그래프
- 2개의 그래프를 겹쳐 그릴 수 있게 하기 위한 함수 : par(new = True)

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석 (0)	2020.02.19
[11] 군집분석 (0)	2020.02.19
[9] 앙상블 모형 (0)	2020.02.16
[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14

[9] 앙상블 모형

2020. 2. 16. 22:54

1. 앙상블 모형

여러개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
배깅
- 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법
- 샘플 -> 알고리즘 -> 분류
- 평균예측모델을 구하기 때문에 분산을 줄이고 예측력을 향상 -> overfitting 모델에 사용
부스팅
- 붓스트랩 표본을 구성하는 samppling 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출
- 분류가 잘못된 데이터에 가중치를 주어 표본을 추출한다는 점 외에는 배깅과 동일
랜덤 포리스트
- 배깅에 랜덤과정을 추가한 방법
- 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어나가는 방법을 사용
- 의사결정나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 만드는 방식
- 일부 변수만 대상으로 하여 가지를 나눌 기준을 찾는 방법
서포트 벡터 머신 ( SVM )
- 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델
- 서로 유사한 그룹끼리 칸막이 (초평면) 를 쳐서 나누는 것
- 주로 패턴 인식 분야에 활용
- 장점
  - 에러율이 낮다
  - 결과를 해석하기 용이하다
- 단점
  - 튜닝 파라미터 및 커널 선택에 민감
  - 이진분류 로만 다룰 수 있다
- SVM에 잘 적용하려면 파라미터값 을 정하는 것이 중요
  - Cost를 사용해 과적합(overfitting) 정도를 조절하게 된다.
나이브 베이즈 분류 모형
- 베이즈정리를 기반한 방법
- 사후확률(조건부 결합확률)의 계산시 조건부 독립을 가정하여 계산을 단순화한 방법, 사후확률이 큰 집단으로 새로운 데이터를 분류
- 사후확률은 사전확률을 통해 예측할 수 있다
- 장점
  - 지도학습 환경에서 매우 효율적으로 훈련, Training Data가 매우 적어도 사용 가능
  - 분류가 Multi-Class 에서 쉽고 빠르게 예측 가능
- 단점
  - Training Data 에 없고 Test Data에 있는 범주에서는 확률이 0 으로 나타나 정상적인 예측이 불가능한 Zero Frequency가 된다.
  - 서로 확률적으로 독립이라는 가정이 위반되는 경우에 오류 발생

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석 (0)	2020.02.19
[10] 모형평가 (0)	2020.02.17
[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14
[6] 시계열 예측 (0)	2020.02.13

[8] 신경망 모형

2020. 2. 15. 23:52

1. 신경망 모형

인공신경망
- 분류(classifcation) , 군집화(clustering)를 할 수 있음
- Input Layer -> Hidden Layer -> Output Layer
- 지도학습의 한 방법
  - 역전파 알고리즘
    - 인공신경망을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘
    - 역전파 : 오차(에러)가 본래 진행 방향과 반대 방향으로 전파된다 하여 붙여진 이름
  - 예측분석에 사용
- neuralnet / nnet R 패키지 활용
신경망학습 -> 가중치(weight)의 조절 작업
- 입력값을 입력층에 넣음 -> 모델의 출력값이 원하는 출력값과 같은지 확인 -> 같지 않다면 가중치 조절
- output = f(w_0 + w_1 input_1 + w_2 input_2 + w_3 input_3)
- f () : 활성함수, 결과의 범위를 제한, 계산의 편의성을 제공
  - 시그모이드 함수(미분)
  - 부호 함수
  - 소프트맥스 함수
- 신경망의 은닉층 및 은닉 노드 수를 정할 때 고려해야 할 사항
  - 다층신경망은 단층신경망에 비해 훈련이 어렵다
  - 노드가 많을수록 복잡성을 잡아내기 쉽지만, 과적합의 가능성도 높아짐
  - 은닉층 노드가 너무 적으면 복잡한 의사결정 경계를 만들 수 없음
  - 시그모이드 활성함수를 가지는 2개 층의 네트워크는 임의의 의사 결정 경계를 모형화 할 수 있음
  - 출력층 노드의 수는 출력 범주의 수 로 결정, 입력의 수는 입력 차원의 수로 결정
- 신경망 모형의 장점
  - 변수의 수가 많거나 입력 , 출력변수 간이 복잡한 비선형 관계에 유용
  - 잡음에 대해서도 민감하게 반응하지 않음
  - 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가 가능
- 신경망 모형의 단점
  - 결과에 대한 해석이 쉽지 않음
  - 최적의 모형을 도출하는 것이 상대적으로 어려움
  - 데이터 정규화를 하지 않으면 지역해 에 빠질 위험이 있음
  - 모형이 복잡하면 훈련 과정에 시간이 많이 소요됨

2. 의사결정나무 모형

의사결정나무
- 분석과정이 직관적이고 이해하기 쉬움
- 분류(classification), 예측(prediction)
- 구성요소
  - 뿌리마디(root node) : 시작되는 마디로 전체 자료를 포함
  - 자식마디(child node) : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
  - 부모마디(parent node) : 주어진 마디의 상위 마디
  - 최종마디(terminal node) : 자식마디가 없는 마디
  - 중간마디(internal node) : 부모마디와 자식마디가 모두 있는 마디
  - 가지(branch) : 뿌리마디로부터 최종마디까지 연결된 마디들
  - 깊이(depth) : 뿌라마디로부터 최종마디까지의 중간 마디들의 수
- 분석 패키지
  - tree 패키지 : binary recursive partitioning
  - repart 패키지 : CART(classification and regression trees) 방법론
    - 지니 지수를 기준으로 가지치기를 할 변수를 결정하기 때문에 상대적으로 연산속도는 빠름 But 과적합화의 위험성이 존재함
  - party 패키지 : Unbiased recursive partitioning based on permutation tests 방법론
    - p-test를 거친 Significance를 기준으로 가지치기 할 변수를 결정 -> 위험성이 낮음 But 변수제한이 31개로 됨
- 데이터 분할과 과대적합
  - Training set 가 정확한 결과를 보여주기 위해 복잡하게 모델을 만드는 것을 과대적합
    - 높은 정확도 But 새로운 데이터가 입력되면 잘못된 결과를 예측할 수 있음
  - 모델이 너무 간단하여 정확도가 낮은 모델을 과소적합
    - 간단함 But, training data 조차도 정확한 결과가 나오지 않을 수 있음
- 의사결정나무 구분
  - 분류나무
    - 목표변수가 이산형
    - 상위 노드에서 가지분할을 수행할 때 분류변수와 분류 기준값의 선택방법
    - 카이제곱통계량의 p값, 지니지수, 엔트로피 지수
      - 카이제곱통계량의 p값이 작을수록, 지니지수와 엔트로피지수는 값이 클수록 자식노드내에 이질성이 큼
  - 회귀나무
    - 목표변수가 연속형
    - F통계량의 p값, 분산의 감소량
      - F통계량 : 일원배치법에서의 검정 통계량, 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미
  - 정지규칙 : 더 이상 분리가 일어나지 않음
    - 최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱통계량 , 지니 지수, 엔트로피 지수
  - 가지치기 : 최종마디가 너무 많으면 모형이 과대적합된 상태 -> 현실 문제에 적용할 수 있는 규칙이 안나옴
    - MSE(Mean Squared Error) 등을 고려하여 수준의 가지치기 규칙을 제공해야함
  - 의사결정나무 분석
    - 데이터 준비 -> 의사결정나무 만들기 -> 가지치기 -> 예측및 모델의 평가
  - rpart() 를 사용한 예측 predict()를 통해 수행하고 confusionMatrix() 함수를 이용해 정확성을 평가함
  - 의사결정나무 장점
    - 구조가 단순, 해석에 용이
    - 유용한 입력변수의 파악과 예측변수 간의 상호작용 및 비선형성을 고려
    - 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형
    - 계산비용이 낮아 대규모의 데이터셋에서도 비교적 빠르게 연산이 가능
    - 수치형/범주형 변수를 모두 사용할 수 있음
  - 의사결정나무 단점
    - 분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 크다 (비연속성)
    - 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다
    - 새로운 자료에 대한 에측이 불안정할 수 있다.
  - 활용분야 : 고객 타켓팅, 고객들의 신용점수화, 캠페인 반응분석, 고객행동예측, 고객 세분화

	이산형 목표변수	연속형 목표변수
CHAID	카이제곱통계량	ANOVA F통계량
CART	지니 지수	분산 감소량
C4.5	엔트로피 지수

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[10] 모형평가 (0)	2020.02.17
[9] 앙상블 모형 (0)	2020.02.16
[7] 데이터마이닝 (0)	2020.02.14
[6] 시계열 예측 (0)	2020.02.13
[5] 기초 통계분석(2) (0)	2020.02.12

[7] 데이터마이닝

2020. 2. 14. 23:58

1. 데이터 마이닝 개요

거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정
1. 분류 : 새롭게 나타난 현상을 검토하여 기존의 분류 , 정의된 집합에 배정하는것
  1. 의사결정나무
  2. memory - based reasoning
2. 추정 : 연속된 변수의 값을 추정
  1. 신경망 모형
3. 예측 : 미래의 양상을 예측, 미래의 값을 추정
  1. 장바구니 분석
  2. 의사결정나무
  3. 신경망
4. 연관분석 : 아이템의 연관성을 파악하는 분석
  1. 장바구니 분석
5. 군집 : 레코드 자체가 지니고 있는 다른 레코드와의 유사성에 의해 그룹화 되고 이질성에 의해 세분화
  1. 데이터마이닝,모델링 준비단계로서 사용
6. 기술 : 데이터가 가지고 있는 의미를 단순한게 기술하는 것
데이터마이닝 5단계
1. 목적정의
2. 데이터준비
3. 데이터가공
4. 데이터마이닝 기법 적용
5. 검증

2. 분류 분석

로지스틱회귀, 신경망 모형, 의사결정나무, 앙상블 모형, 규칙기반, 사례기반, 인접이웃분류모형 , 베이즈분류모형 , 서포트벡터기계, 유전자 알고리즘 이 있음
로지스틱 회귀모형
- 반응변수가 범주형인 경우에 적용되는 회귀분석 모형
- 종속변수와 독립변수 간의 관계식을 이용, 두 집단을 분류하고자 할 경우에 사용
- 독립변수에 대해 어떠한 가정도 필요로 하지 않음, 이산형,연속형 두 경우 모두 가능
- 지도 학습으로 분류
- Odds ratio(오즈비) 같은 수치로 나타냄
  - Odds : 한 집단이 다른 집단에 비해 성공할 승산의 비에 대한 측정량
  - 오즈비 : 성공률/실패율 = P_i / (1 - P_i) 단 P_i는 성공률
  - 음이 아닌 실숫값, 성공이 일어날 가능성이 높은 경우에는 1.0보다 큰 값을, 반대로는 1.0 보다 작은 값을 가짐

	일반성형 회귀분석	로지스틱 회귀분석
종속변수	연속형 변수	이산형 변수
모형 탐색 방법	최소자승법	최대우도법, 가중최소자승법
모형 검정	F-test , t-test	x^2 test

로지스틱 회귀모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있음 --> 로짓변환

 summary(z)

Call:
lm(formula = pmale ~ x)

Residuals:
       1        2        3        4        5 
-0.29528  0.20532  0.20325  0.01356 -0.12685 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  -6.9020     3.4737  -1.987    0.141
x             0.2673     0.1227   2.179    0.117

Residual standard error: 0.2496 on 3 degrees of freedom
Multiple R-squared:  0.6128,	Adjusted R-squared:  0.4838 
F-statistic: 4.748 on 1 and 3 DF,  p-value: 0.1175

# 추정 회귀식 : -6.9020 + 0.2673 * x(온도)

p <- coefficients(z)[1] + coefficients(z)[2]*x

===================================================
#로짓변환
> logit = log(pmale/(1-pmale))
> z1 <- lm(logit~x)
> summary(z1)

Call:
lm(formula = logit ~ x)

Residuals:
      1       2       3       4       5 
-1.3837  1.1107  0.9930 -0.1976 -0.5224 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) -51.1122    16.9415  -3.017   0.0569 .
x             1.8371     0.5983   3.070   0.0545 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.217 on 3 degrees of freedom
Multiple R-squared:  0.7586,	Adjusted R-squared:  0.6781 
F-statistic: 9.428 on 1 and 3 DF,  p-value: 0.05454

#예측값 수컷비 예측값 출력
> logit2 <- coefficients(z1)[1] + coefficients(z1)[2] * x
> logit2
[1] -1.1420115 -0.2234416  0.8788422  1.0625562  3.8182657
> rmalehat <- exp(logit2)/(1+exp(logit2))
> rmalehat
[1] 0.2419512 0.4443709 0.7065822 0.7431787 0.9785063

최대우도추정법
- 관측값들이 가정된 모집단에서 하나의 표본으로 추출될 가능성이 가장 크게 되도록 하는 회귀계수 추정 방법.
- 표본의 수가 클 경우에 최대우도추정법은 안정적
로지스틱 회귀분석 함수 : glm()
- glm(모형,data,family='binominal')

#최대우도추정법
> logit = glm(pmale~x,family = 'binomial',weights = total)
> summary (logit)
Call:
glm(formula = pmale ~ x, family = "binomial", weights = total)

Deviance Residuals: 
     1       2       3       4       5  
-2.224   2.248   1.239  -1.382  -1.191  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -61.3183    12.0224  -5.100 3.39e-07 ***
x             2.2110     0.4309   5.132 2.87e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 64.429  on 4  degrees of freedom
Residual deviance: 14.863  on 3  degrees of freedom
AIC: 33.542

Number of Fisher Scoring iterations: 5

#추정회귀식은 수컷 비율 = -61.3183+2.2110*x(온도)
#즉 -61.3183+2.2110 = 0 이 되는 27.3도 에서 암컷과 수컷을 구분짓는 경계값이 된다

#회귀계수를 해석한 것
> exp(-61.3183) * exp(2.2111*27)
[1] 0.198176
> exp(-61.3183) * exp(2.2111*28)
[1] 1.808504

#즉 28도에서 오즈 예측값은 27도에서의 오츠 예측값보다 exp(2.211) = 9.125배가 된다

anova() 함수 : 모형의 적합 단계별로 이탈도의 감소량과 유의성 검정 결과를 제시
로지스틱 회귀 분석에도 선형회귀분석에서의 R^2 와 유사한 개념인 Mcfadden R^2 으로 모델 fit 확인
- pR2()

> pR2(glm.vs)
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-10.3231464 -21.9300546  23.2138164   0.5292695   0.5158845   0.6914854

#r2CU(R^2) 값이 0.69인것으로 보아 모델이 데이터셋의 분산의 약 69.1% 정도 설명하고 있다.

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[9] 앙상블 모형 (0)	2020.02.16
[8] 신경망 모형 (0)	2020.02.15
[6] 시계열 예측 (0)	2020.02.13
[5] 기초 통계분석(2) (0)	2020.02.12
[4] 기초 통계분석 (0)	2020.02.08

[6] 시계열 예측

2020. 2. 13. 23:32

1. 시계열

시계열(Time Series) 데이터
- 관측치가 시간적 순서를 가지게 됨
- 일정 시점에 조사된 데이터는 횡단 자료라 함
  - ex) 소비자물가지수
- 미래 값을 예측하는 것
- 시계열 데이터의 특성을 파악 - 경향,주기,계절성,불규칙성
정상성
- 시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것 -> 미래는 확률적으로 과거와 동일하다는 것을 뜻함
- 조건
  1. 평균값은 시간 t에 관계없이 일정하다.
  2. 분산값은 시간 t에 관계없이 일정하다
  3. 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.
비정상시계열을 정상시계열로 전환하는 방법
1. 시계열의 평균이 일정하지 않은 경우에는 원시계열의 차분하면 정상 시계열이 됌
2. 계절성을 갖는 비정상시계열은 정상시계열로 바꿀 때 계절차분을 사용
3. 분산이 일정하지 않는 경우에는 원계열에 자연로그를 취하면 정상시계열이 된다
백색잡음 과정 : 시계열 et의 평균이 0 분산이 일정한 값 2σ이고 자기 공분산이 0 인 경우
자기상관은 시점 t와 (t-1) 간의 상관관계를 의미하며 한동안 증가하거나 감소하는 경우 양의 자기상관이 존재
- 시점마다 증감이 반복되는 경우 음의 자기상관
시계열 모형
- 자기회귀모형 : 자신의 과거 값을 사용 (Autoregressive)
  - 현시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는데 있음
  - 현시점의 자료에 과거 1시점 이전의 자료만 영향을 준다면, 이를 1차 자기회귀모형 ( AR(1) 모형 ) 이라함
  - Y_t = α_1Y_1 + ... α_pY_p + ε_t
  - 자기상관함수가 시차가 증가함에 따라 점차적으로 감소, 부분자기상관함수는 시차 이후 급격히 감소하여 절단된 형태를 취함
- 이동평균모형 : 최근 데이터의 평균(혹은 중앙치)을 예측치로 사용하는 방법
  - Y_t = ε_t - β_1ε_t - ... - β_qε_(t-q)
- 자기회귀누적이동 모형 (ARIMA)
  - 비정상시계열모형
    - 차분이나 변환을 통해 AR,MA,ARMA 모형으로 정상화할 수 있음
    - AR : 과거시점의 관측자료의 선형결합으로 표현하는 것 - 자기회귀
    - MR : 과거 시점의 백색잡음 선형결합으로 표현하는 것 - 이동평균
    - ARMA : AR,MR 모형을 둘다 합친 것 - 자기회귀이동평균
- 분해시계열
  - 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
    - 추세요인 : 자료가 어떤 특정한 형태를 취할 때
    - 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 경우
    - 순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 때
    - 불규칙요인 : 위 세가지로 설명할 수 없을 때
  - decompose() - 시계열 자료를 4가지 요인으로 분해할 수 있음
  - diff() - 차분을 하는 함수
- ARIMA 모델 적합 및 결정
  - acf() - 자기상관함수
  - pacf() - 부분자기상관함수
  - auto.arima() - 시계열 자료에 적절한 모형 제시
  - forecast() - arima 모형을 가지고 예측

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14
[5] 기초 통계분석(2) (0)	2020.02.12
[4] 기초 통계분석 (0)	2020.02.08
[3] 통계분석 (0)	2020.02.07

[5] 기초 통계분석(2)

2020. 2. 12. 22:19

3. 다변량분석

상관분석
- 두 변수 간의 관련성을 파악하는 방법
  - 서열척도 : 스피어만 상관분석
  - 등간척도, 비율척도 : 피어슨 상관분석 , 편상관분석
- 공분산 : 두 확률변수가 얼마나 같이 변하는지를 측정하는 것 (크기 변화의 방향이 같다면 공분산은 양의 값)
  - 공분산 값이 0, 관측값들이 4개 면에 균일하게 분포되어 있으면 서로 독립관계이다.
- 상관계수와 상관관계
  - 상관계수 r의 범위 : -1 <= r <= +1 (1에 가까울수록 상관이 높고 0에 접근할수록 상관이 낮음)
  - r = 0 : 두 변수 간에 직선적 관계가 없음을 의미 (어떤관계도 존재하지 않다는 것이 아님)
    - 산점도로 변수의 관계를 미리 알아보는 것이 중요
- 상관분석 절차
  1. 산점도를 그려서 두 변수의 대략적 관계를 알아본다.
  2. 상관계수에 필요한 통계량을 구한다.
  3. 상관계수를 구한다.
  4. 모상관계수에 대한 유의성 검정을 한다.
  5. 결정계수를 구한다.
  6. 상관계수와 결정계수를 제시 -> 상관분석 결과를 설명

> cor.test(c(1,2,3,4,5),c(1,0,5,7,9),method='pearson')

	Pearson's product-moment correlation

data:  c(1, 2, 3, 4, 5) and c(1, 0, 5, 7, 9)
t = 5.019, df = 3, p-value = 0.01523
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3796883 0.9964882
sample estimates:
      cor 
0.9452942 

# P-value 가 0.01523 . 0.05보다 작으므로 상관관계가 유의한 것으로 나타남

피어슨 상관계수 vs 스피어만 상관계수
- 피어슨 상관계수
  - 두 변수 간의 선형관계의 크기를 측정하는 값 , 비선형적인 상관관계는 나타내지 못함
  - 연속형 변수만 가능 (ex. 국어 점수와 영어 점수와의 상관계수)
- 스피어만 상관계수
  - 두 변수 간의 비선형적인 관계도 나타낼 수 있음
  - 연속형 외에 이산형 순서형도 가능 (ex. 국어성적 석차와 영어성적 석차의 상관계수)
결정계수
- 총제곱합(SST) = 회귀제곱합(SSR) + 오차제곱합(SSE) (SSR은 추정회귀방정식에 의해 설명되는 부분)
- R^2 (결정계수) = 회귀제곱합(SSR) / 총제곱합(SST)
- 독립변수(X)가 종속변수(Y)를 얼마나 설명할 수 있는지를 알려주고, 두 독립변수 간 상관관계 강도를 나타냄, 결정계수값이 클수록 회귀방적식과 상관계수의 설명력은 높아진다.
주성분분석(PCA)
- 변수의 수를 줄이는 차원 감소 기법 중 하나
  - 차원 축소의 분석 방법
    1. 주성분분석
    2. 요인분석
    3. 판별분석
    4. 군집분석
    5. 정준상관분석
    6. 다차원척도법
- 상관관계가 있는 변수들을 선형 결합하여 변수를 축약하는 기법

> fit<-princomp(USArrests,cor=TRUE)
# princomp = 주성분분석 함수 
> summary(fit)
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4
Standard deviation     1.5748783 0.9948694 0.5971291 0.41644938
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752
Cumulative Proportion  0.6200604 0.8675017 0.9566425 1.00000000
> loadings(fit)

#주성분분석 하나가 전체분산의 62%를 설명하고있음
-> 첫 번째 주성분분석만 수용했을 때는 정보손실은 100-62 인 38%가 됨

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4
Murder    0.536  0.418  0.341  0.649
Assault   0.583  0.188  0.268 -0.743
UrbanPop  0.278 -0.873  0.378  0.134
Rape      0.543 -0.167 -0.818       

# 첫번째 주성분은 Murder/Assault/UrbanPop/Rape = 0.536/0.583/0.278/0.543

               Comp.1 Comp.2 Comp.3 Comp.4
SS loadings      1.00   1.00   1.00   1.00
Proportion Var   0.25   0.25   0.25   0.25
Cumulative Var   0.25   0.50   0.75   1.00
> plot(fit,type='lines')

# (스크리도표) 고유값이 1 보다 크며 하나의 요인이 변수 1개 이상의 분산은 설명한다는 의미
# 1보다 작다면 요인으로서 의미가 없음

주성분분석 vs 요인분석
- 주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화 -> 단순하게 데이터를 축소
- 요인분석 : 자료의 축소라는 의미도 포함, 데이터에 내재적 속성까지 찾아내는 방법
biplot()

-> Murder , Assault , Rape 방향의 도시들의 범죄율이 높다는 것을 의미

-> UnderPop 방향이 인구비율이 높다는 것을 의미

통계적으로 '유의하다' 라는 말은 관찰된 현상이 우연에 의해 벌어질 가능성이 낮다는 말이다.

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[7] 데이터마이닝 (0)	2020.02.14
[6] 시계열 예측 (0)	2020.02.13
[4] 기초 통계분석 (0)	2020.02.08
[3] 통계분석 (0)	2020.02.07
[2] 데이터 마트 (0)	2020.02.06

PREV 1 2 3 NEXT

Programmiry

분류 전체보기

[12] 연관분석

1. 연관규칙

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석

1. 군집분석

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[10] 모형평가

1. 모형평가

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[9] 앙상블 모형

1. 앙상블 모형

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[8] 신경망 모형

1. 신경망 모형

2. 의사결정나무 모형

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[7] 데이터마이닝

1. 데이터 마이닝 개요

2. 분류 분석

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측

1. 시계열

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[5] 기초 통계분석(2)

3. 다변량분석

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바

confusion matrix		Predicted Class
confusion matrix		Positive	Negative
Actual class	Positive	TP	FN
Actual class	Negative	FP	TN