1. 연관규칙

  • 항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴

  • 이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 함 -> 장바구니분석이라고도 함

  • 측정지표

    • 지지도

      • 전체 거래항목 중 상품 A 와 상품 B를 동시에 포함하여 거래하는 비율을 의미

      • P ( A ∩ B ) : A와 B가 동시에 포함된 거래수 / 전체 거래 수

    • 신뢰도

      • 상품 A를 포함하는 거래 중 A와 B와 동시에 거래되는 비중

      • P ( A ∩ B ) / P ( A ) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수

    • 향상도

      • 상품 A의 거래 중 항목 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율

      • A가 주어지지않았을 때 B의 확률대비 A가 주어졌을 때 B의 확률증가 비율

      • P ( A ∩ B ) / P(A) * P(B) = P(B|A) / P(B)
        A와 B가 동시에 일어난 횟수 / A,B가 독립사건일 때 A,B가 동시에 일어날 확률

  • 상호관계가 없으면(독립) 향상도는 1 , 향상도가 1보다 높아질 수록 연관성이 높다고 할 수 있음

    • 향상도가 1 이면 품목간에 연관성이 없다

    • 향상도가 음 이면 서로 음의 상관관계를 의미

  • Process ( Apriori 알고리즘 : 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝힘)

    • 최소 지지도를 설정

    • 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다

    • 2에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두가지 품목 집합을 찾는다.

    • 위의 두 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾는다.

    • 반복적으로 수행해 최소 지지도가 넘는 빈발품목 집합을 찾는다.

  • 장점

    • 조건반응( if - then )으로 표현되는 연관분석의 결과를 이해하기 쉬움

    • 강력한 비목적성 분석 기법

    • 사용이 편리한 데이터 분석

    • 분석계산이 간편

  • 단점

    • 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가

    • 너무 세부화된 품목을 가지고 연관규칙을 찾으려면 의미 없는 분석 결과가 도출

    • 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석  (0) 2020.02.19
[10] 모형평가  (0) 2020.02.17
[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14

1. 군집분석

  • 각 개체에 대해 관측된 여러 개의 변숫값들로부터 N개의 개체를 유사한 성격을 가지는 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악 하여 군집들 사이의 관계를 분석하는 다변량분석기법이다.

  • 실루엣 : 거리가 가까울수록 높고 멀수록 낮은 지표 , 완벽히 분리된 경우 1이 되는 지표

  • 계층적 군집

    • 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법

    • 계통도 , 덴드로그램의 형태로 결과가 주어지며, 각 개체는 하나의 군집에만 속하게된다.

    • 군집 간의 연결법에 따라 결과가 달라진다

      • 단일 연결법 : 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 ( 사슬모양 )

      • 완전 연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정

      • 평균 열결법 : 모든 항목에 대한 거리평균을 구하면서 군집화 -> 계산이 불필요하게 많아짐

      • 중심 연결법 : 두 군집의 중심간의 거리를 측정, 두 군집이 결합할 때 새로운 군집의 평균은 가중평균을 통해 구해짐

      • 와드 연결법 : 군집 내의 오차제곱합에 기초하여 군집을 수행

    • 두 개체의 간의 거리에 기반하므로 거리측정 대한 정의가 필요

      • 수학적 거리 

        • 유클리드

          • 두 점 사이의 거리를 계산 ( 방향성 고려 X )

        • 맨해튼 거리

          • 두 점 좌표 간의 절댓값 차이를 구하는 것

        • 민코프스키 거리

          • 가장 일반적으로 사용되는 minkowski 거리의 차수는 1, 2 ,∞ 이다.

          • q가 1이면 맨해튼 거리, q가 2이면 유클리디안 거리

      • 표준화 거리 ( 통계적 거리 )

        • 각 변수를 해당 변수의 표준편차로 척도 변환한 후 유클리드 거리를 계산한 거리

        • 마할라노비스

          • 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려

             

             

      • 계층적 군집에 사용하는 함수

        • 병합적 : agnes() , mclust()

        • 분할적 : diana() , mona()

    • 계층적 군집 특징

      • 매 단계에서 지역적(local) 최적화를 수행해나가는 방법

  • 비계층적 군집

    • k-평균 군집 ( k - mean clustering )

      • 원하는 군집 수 만큼 초기값을 지정 -> 가까운 초기값을 할당하여 군집을 형성

      • 군집의 평균을 재계산하여 초기값을 갱신

      • Process

        1. 초기 군집 중심(centroid)으로 k개의 객체를 임의로 선택

        2. 각 자료를 가장 가까운 군집 중심에 할당, 즉 자료들의 군집의 중심점으로부터 오차제곱합이 최소가 되도록 각 자료를 할당

        3. 각 군집 내의 자료들의 평균을 계싼하여 군집의 중심을 갱신

        4. 군집 중심의 변화가 없을 때까지 단계 2와 단계 3을 반복

      • 장점

        • 알고리즘이 단순, 계층적 군집보다 많은 양의 데이터를 처리

        • 관찰치 간의 거리 데이터형태, 거의 모든 형태의 데이터에 적용이 가능

        • 내부 구조에 대한 사전적 정보 없이 의미 있는 자료로 분석 가능

      • 단점

        • 잡음이나 이상값에 영향을 받기 쉬움, 평균 대신 중앙값을 사용하는 k-medoids 군집을 사용 가능

        • 사전에 군집의 수를 정해주어야함 (Nbclust 패키지)

  • 혼합분포군집

    • 모형-기반의 군집방법

    • 데이터가 k개의 모수적모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하, 모수와 함께 가중치를 자료로 부터 추정하는 방법

    • k개의 각 모형은 군집을 의미

    • 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM알고리즘이 사용

    • EM 알고리즘

      • 혼합분포에서 잠재변수를 추정할 때 사용

      • 분석 데이터가 불완전하거나 결측치가 있고, 숨겨진 잠재변수가 있을 때 MLE추정치를 알아냄

      • 순서

        • 무작위로 k개의 클러스터를 초기화

        • 포인트가 클러스터에 포함될 확률 계산

        • MSL이 최대화하기 위한 분포의 파라미터를 계산

      • 단점 : 초기 클러스터의 개수를 정해주어야함

    • k-means vs 혼합분포군집

      • k-means는 클러스터의 중심거리 / EM은 MSL 로 거리를 측정

      • 클러스터를 늘릴수록 중심에서의 평균거리가 짧아짐 / EM은 우도가 커짐

      • EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 소요 , 군집의 크기가 너무 작으면 추정의 정도가 떨어짐

      • 둘 다 이상값 자료에 민감

  • SOM ( 자기조직화지도)

    • 인공신경망의 한 종류

    • 차원 축소군집화를 동시에 수행하는 기법

    • 입력 벡터를 훈련집합에서는 match가 되도록 가중치를 조정하는 인공 신경세포 격자에 기초한 자율학습의 한 방법

    • 기능

      • Find Structures in data( 구조 탐색 ) : 데이터의 특징을 파악하여 유사데이터를 Clustering 함.

        고차원 데이터셋을 저차원 맵( 2D 그리드에 매핑 )에 표현하는 것, 이를 통해 입력 데이터를 유사한 그룹으로 분류

      • Dimension Reduction ( 차원 축소 ) & Visualization ( 시각화 ) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 인간이 시각적으로 인식할 수 있게 한다.

    • Process

      • SOM 맵의 노드에 대한 연결 강도로 초기화

      • 입력벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력벡터와 가장 짧은 노드를 선택

      • 선택된 노드와 이웃 노드의 가중치(연결강도)를 수정

      • 단계 2로 가서 반복, 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨

        경쟁층에는 승자 뉴런만이 남아 있음, 신경망은 역전파 알고리즘이지만

        SOM은 전방패스를 사용하여 속도가 매우 빠름

    • 장점

      • 고차원의 데이터저차원의 지도 형태로 형상화

      • 입력변수의 위치 관계를 그대로 보존

    • SOM vs 신경망 모형 비교

      • 신경망 모형은 연속적인 Layer로 구성 / SOM은 2차원 그리드로 구성

      • 신경망 모형은 에러를 수정 / SOM은 경쟁학습을 실시

      • SOM은 비지도학습 이다.

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석  (0) 2020.02.19
[10] 모형평가  (0) 2020.02.17
[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14

1. 모형평가

  • 가장 적합한 모형을 선택하기 위한 것

    • 기준

      • 일반화의 가능성 : 같은 모집단 내의 다른 데이터에 적용할 경우에도 안정적인 결과를 제공하는가?

      • 효율성 : 분류분석 모형이 얼마나 효과적으로 구축되어있는지를 평가 (적은 입력변수 ↑효율성 ↑)

      • 예측과 분류의 정확성 : 실제 문제에 적용했을 때의 정확성을 의미

    • Training Data (훈련용 자료) , Test Data (검증용 자료) 를 추출 -> 과적합화 문제를 해결하기 위함

  • 홀드아웃(hold-out) 방법

    • 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법

    • 전체 데이터 중 70% : 훈련용 자료 / 나머지는 검증용 자료

  • 교차검증

    • 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것

    • k-fold 교차검증

      • k의 개의 subset -> k번째 subset을 검증용 자료로, 나머지 k-1개의 subset은 훈련용 자료로 사용

  • 붓스트랩

    • 교차검증에서 훈련용 자료를 반복 재선정 한다는 점에서 차이가 있음

    • 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법을 기반

    • 전체 데이터 양이 적은 것의 모형평가에 가장 적합

    • 0.632 붓스트랩

    • 오분류표

    •  

      confusion matrix

      Predicted Class

      Positive

      Negative

      Actual class

      Positive

      TP

      FN

      Negative

      FP

      TN

      • TP : 실제값과 예측치 모두 True

      • TN : 실제값과 예측치 모두 False

      • FP : 실제값은 False 이나 True로 예측

      • FN : 실제값은 True 이나 False로 예측

    • 평가지표

      • Precision (TP) = TP / ( TP + FP )  :  Y로 예측된 것실제로도 Y인 경우의 비율

      • Accuracy = TP+TN / ( TP+FP+TN+FN ) : 전체예측에서 옳은 예측의 비율

      • Recall(Sensitivity) = TP / ( TP + FN ) : 실제로 Y인 것들 중 예측이 Y로 된 경우의 비율

      • Specificity = TN / ( FP + TN ) : 실제로 N인 것들 중 예측이 N으로 된 경우의 비율

      • FP Rate = FP / ( FP + TN ) : Y가 아닌데 Y로 예측된 비율 (1 - specificity)

      • F1 = 2*[ Precision * Recall / (Precision + Recall )] : Precision 과 Recall 의 조화평균 (0과 1사이의 값)

      • Kappa = Accuracy - P(e) / (1- P(e)) : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값 (0과 1사이의 값)

    • Roc 그래프

      • 레이더 이미지 분석의 성과를 측정하기 위해 개발된 것

      • x축에는 FP Rate ( 1- specificity ) , y축에는 Recall(민감도) - 두 평갓값의 관계로 모형을 평가

      • 그래프 밑부분 면적이 넓을수록 좋은 모형

  • 이익도표와 향상도

    • 이익(gain) : 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지 나타내느 값

    • 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표

    • 항상도곡선 (lift curve) : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 파악하는 그래프

    • 2개의 그래프를 겹쳐 그릴 수 있게 하기 위한 함수 : par(new = True)

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석  (0) 2020.02.19
[11] 군집분석  (0) 2020.02.19
[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14

1. 앙상블 모형

  • 여러개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법

  • 배깅

    • 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법

    • 샘플 -> 알고리즘 -> 분류

    • 평균예측모델을 구하기 때문에 분산을 줄이고 예측력을 향상 -> overfitting 모델에 사용

  • 부스팅

    • 붓스트랩 표본을 구성하는 samppling 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출

    • 분류가 잘못된 데이터에 가중치를 주어 표본을 추출한다는 점 외에는 배깅과 동일

  • 랜덤 포리스트

    • 배깅에 랜덤과정을 추가한 방법

    • 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어나가는 방법을 사용

    • 의사결정나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 만드는 방식

    • 일부 변수만 대상으로 하여 가지를 나눌 기준을 찾는 방법

  • 서포트 벡터 머신 ( SVM )

    • 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델

    • 서로 유사한 그룹끼리 칸막이 (초평면) 를 쳐서 나누는 것

    • 주로 패턴 인식 분야에 활용

    • 장점

      • 에러율이 낮다

      • 결과를 해석하기 용이하다

    • 단점

      • 튜닝 파라미터커널 선택에 민감

      • 이진분류 로만 다룰 수 있다

    • SVM에 잘 적용하려면 파라미터값 을 정하는 것이 중요

      • Cost를 사용해 과적합(overfitting) 정도를 조절하게 된다.

  • 나이브 베이즈 분류 모형

    • 베이즈정리를 기반한 방법

    • 사후확률(조건부 결합확률)의 계산시 조건부 독립을 가정하여 계산을 단순화한 방법, 사후확률이 큰 집단으로 새로운 데이터를 분류

    • 사후확률은 사전확률을 통해 예측할 수 있다

    • 장점

      • 지도학습 환경에서 매우 효율적으로 훈련, Training Data가 매우 적어도 사용 가능

      • 분류가 Multi-Class 에서 쉽고 빠르게 예측 가능

    • 단점

      • Training Data 에 없고 Test Data에 있는 범주에서는 확률이 0 으로 나타나 정상적인 예측이 불가능한 Zero Frequency가 된다.

      • 서로 확률적으로 독립이라는 가정이 위반되는 경우에 오류 발생

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석  (0) 2020.02.19
[10] 모형평가  (0) 2020.02.17
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14
[6] 시계열 예측  (0) 2020.02.13

1. 신경망 모형

  • 인공신경망

    • 분류(classifcation) , 군집화(clustering)를 할 수 있음

    • Input Layer -> Hidden Layer -> Output Layer

    • 지도학습의 한 방법

      • 역전파 알고리즘

        • 인공신경망을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘

        • 역전파 : 오차(에러)가 본래 진행 방향과 반대 방향으로 전파된다 하여 붙여진 이름

      • 예측분석에 사용

    • neuralnet / nnet R 패키지 활용

  • 신경망학습 -> 가중치(weight)의 조절 작업

    • 입력값을 입력층에 넣음 -> 모델의 출력값이 원하는 출력값과 같은지 확인 -> 같지 않다면 가중치 조절

    • output = f(w_0 + w_1 input_1 + w_2 input_2 + w_3 input_3)

    • f () : 활성함수, 결과의 범위를 제한, 계산의 편의성을 제공 

      • 시그모이드 함수(미분)

      • 부호 함수

      • 소프트맥스 함수

    • 신경망의 은닉층 및 은닉 노드 수를 정할 때 고려해야 할 사항

      • 다층신경망은 단층신경망에 비해 훈련이 어렵다

      • 노드가 많을수록 복잡성을 잡아내기 쉽지만, 과적합의 가능성도 높아짐

      • 은닉층 노드가 너무 적으면 복잡한 의사결정 경계를 만들 수 없음

      • 시그모이드 활성함수를 가지는 2개 층의 네트워크는 임의의 의사 결정 경계를 모형화 할 수 있음

      • 출력층 노드의 수는 출력 범주의 수 로 결정, 입력의 수는 입력 차원의 수로 결정

    • 신경망 모형의 장점

      • 변수의 수가 많거나 입력 , 출력변수 간이 복잡한 비선형 관계에 유용

      • 잡음에 대해서도 민감하게 반응하지 않음

      • 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가 가능

    • 신경망 모형의 단점

      • 결과에 대한 해석이 쉽지 않음

      • 최적의 모형을 도출하는 것이 상대적으로 어려움

      • 데이터 정규화를 하지 않으면 지역해 에 빠질 위험이 있음

      • 모형이 복잡하면 훈련 과정에 시간이 많이 소요됨

2. 의사결정나무 모형

 

  • 의사결정나무

    • 분석과정이 직관적이고 이해하기 쉬움

    • 분류(classification), 예측(prediction)

    • 구성요소

      • 뿌리마디(root node) : 시작되는 마디로 전체 자료를 포함

      • 자식마디(child node) : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들

      • 부모마디(parent node) : 주어진 마디의 상위 마디

      • 최종마디(terminal node) : 자식마디가 없는 마디

      • 중간마디(internal node) : 부모마디와 자식마디가 모두 있는 마디

      • 가지(branch) : 뿌리마디로부터 최종마디까지 연결된 마디들

      • 깊이(depth) : 뿌라마디로부터 최종마디까지의 중간 마디들의 수

    • 분석 패키지

      • tree 패키지 : binary recursive partitioning

      • repart 패키지 : CART(classification and regression trees) 방법론

        • 지니 지수를 기준으로 가지치기를 할 변수를 결정하기 때문에 상대적으로 연산속도는 빠름 But 과적합화의 위험성이 존재함

      • party 패키지 : Unbiased recursive partitioning based on permutation tests 방법론

        • p-test를 거친 Significance를 기준으로 가지치기 할 변수를 결정 -> 위험성이 낮음 But 변수제한이 31개로 됨 

    • 데이터 분할과 과대적합

      • Training set 가 정확한 결과를 보여주기 위해 복잡하게 모델을 만드는 것을 과대적합

        • 높은 정확도 But 새로운 데이터가 입력되면 잘못된 결과를 예측할 수 있음

      • 모델이 너무 간단하여 정확도가 낮은 모델을 과소적합

        • 간단함 But, training data 조차도 정확한 결과가 나오지 않을 수 있음

    • 의사결정나무 구분

      • 분류나무

        • 목표변수가 이산형

        • 상위 노드에서 가지분할을 수행할 때 분류변수와 분류 기준값의 선택방법

        • 카이제곱통계량의 p값, 지니지수, 엔트로피 지수

          • 카이제곱통계량의 p값이 작을수록, 지니지수와 엔트로피지수는 값이 클수록 자식노드내에 이질성이 큼

      • 회귀나무

        • 목표변수가 연속형

        • F통계량의 p값, 분산의 감소량

          • F통계량 : 일원배치법에서의 검정 통계량, 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미

      • 정지규칙 : 더 이상 분리가 일어나지 않음

        • 최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱통계량 , 지니 지수, 엔트로피 지수

      • 가지치기 : 최종마디가 너무 많으면 모형이 과대적합된 상태 -> 현실 문제에 적용할 수 있는 규칙이 안나옴

        • MSE(Mean Squared Error) 등을 고려하여 수준의 가지치기 규칙을 제공해야함

      • 의사결정나무 분석

        • 데이터 준비 -> 의사결정나무 만들기 -> 가지치기 -> 예측및 모델의 평가

      • rpart() 를 사용한 예측 predict()를 통해 수행하고 confusionMatrix() 함수를 이용해 정확성을 평가

      • 의사결정나무 장점

        • 구조가 단순, 해석에 용이

        • 유용한 입력변수의 파악과 예측변수 간의 상호작용 및 비선형성을 고려

        • 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형

        • 계산비용이 낮아 대규모의 데이터셋에서도 비교적 빠르게 연산이 가능

        • 수치형/범주형 변수를 모두 사용할 수 있음

      • 의사결정나무 단점

        • 분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 크다 (비연속성)

        • 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다

        • 새로운 자료에 대한 에측이 불안정할 수 있다.

      • 활용분야 : 고객 타켓팅, 고객들의 신용점수화, 캠페인 반응분석, 고객행동예측, 고객 세분화

  이산형 목표변수 연속형 목표변수
CHAID 카이제곱통계량 ANOVA F통계량
CART 지니 지수 분산 감소량
C4.5 엔트로피 지수  

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[10] 모형평가  (0) 2020.02.17
[9] 앙상블 모형  (0) 2020.02.16
[7] 데이터마이닝  (0) 2020.02.14
[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12

1. 데이터 마이닝 개요

  • 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정

    1. 분류 : 새롭게 나타난 현상을 검토하여 기존의 분류 , 정의된 집합에 배정하는것

      1. 의사결정나무

      2. memory - based reasoning

    2. 추정 : 연속된 변수의 값을 추정

      1. 신경망 모형

    3. 예측 : 미래의 양상을 예측, 미래의 값을 추정

      1. 장바구니 분석

      2. 의사결정나무

      3. 신경망

    4. 연관분석 : 아이템의 연관성을 파악하는 분석

      1. 장바구니 분석

    5. 군집 : 레코드 자체가 지니고 있는 다른 레코드와의 유사성에 의해 그룹화 되고 이질성에 의해 세분화

      1. 데이터마이닝,모델링 준비단계로서 사용

    6. 기술 : 데이터가 가지고 있는 의미를 단순한게 기술하는 것

  • 데이터마이닝 5단계

    1. 목적정의

    2. 데이터준비

    3. 데이터가공

    4. 데이터마이닝 기법 적용

    5. 검증

2. 분류 분석

  • 로지스틱회귀, 신경망 모형, 의사결정나무, 앙상블 모형, 규칙기반, 사례기반, 인접이웃분류모형 , 베이즈분류모형 , 서포트벡터기계, 유전자 알고리즘 이 있음

  • 로지스틱 회귀모형

    • 반응변수가 범주형인 경우에 적용되는 회귀분석 모형

    • 종속변수와 독립변수 간의 관계식을 이용, 두 집단을 분류하고자 할 경우에 사용

    • 독립변수에 대해 어떠한 가정도 필요로 하지 않음, 이산형,연속형 두 경우 모두 가능

    • 지도 학습으로 분류

    • Odds ratio(오즈비) 같은 수치로 나타냄

      • Odds : 한 집단이 다른 집단에 비해 성공할 승산의 비에 대한 측정량

      • 오즈비 : 성공률/실패율 = P_i / (1 - P_i) 단 P_i는 성공률

      • 음이 아닌 실숫값, 성공이 일어날 가능성이 높은 경우에는 1.0보다 큰 값을, 반대로는 1.0 보다 작은 값을 가짐

 

일반성형 회귀분석

로지스틱 회귀분석

종속변수

연속형 변수

이산형 변수

모형 탐색 방법

최소자승법

최대우도법, 가중최소자승법

모형 검정

F-test  ,  t-test

x^2 test

  • 로지스틱 회귀모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있음 --> 로짓변환

 summary(z)

Call:
lm(formula = pmale ~ x)

Residuals:
       1        2        3        4        5 
-0.29528  0.20532  0.20325  0.01356 -0.12685 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  -6.9020     3.4737  -1.987    0.141
x             0.2673     0.1227   2.179    0.117

Residual standard error: 0.2496 on 3 degrees of freedom
Multiple R-squared:  0.6128,	Adjusted R-squared:  0.4838 
F-statistic: 4.748 on 1 and 3 DF,  p-value: 0.1175

# 추정 회귀식 : -6.9020 + 0.2673 * x(온도)

p <- coefficients(z)[1] + coefficients(z)[2]*x

===================================================
#로짓변환
> logit = log(pmale/(1-pmale))
> z1 <- lm(logit~x)
> summary(z1)

Call:
lm(formula = logit ~ x)

Residuals:
      1       2       3       4       5 
-1.3837  1.1107  0.9930 -0.1976 -0.5224 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) -51.1122    16.9415  -3.017   0.0569 .
x             1.8371     0.5983   3.070   0.0545 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.217 on 3 degrees of freedom
Multiple R-squared:  0.7586,	Adjusted R-squared:  0.6781 
F-statistic: 9.428 on 1 and 3 DF,  p-value: 0.05454

#예측값 수컷비 예측값 출력
> logit2 <- coefficients(z1)[1] + coefficients(z1)[2] * x
> logit2
[1] -1.1420115 -0.2234416  0.8788422  1.0625562  3.8182657
> rmalehat <- exp(logit2)/(1+exp(logit2))
> rmalehat
[1] 0.2419512 0.4443709 0.7065822 0.7431787 0.9785063
  • 최대우도추정법

    • 관측값들이 가정된 모집단에서 하나의 표본으로 추출될 가능성이 가장 크게 되도록 하는 회귀계수 추정 방법.

    • 표본의 수가 클 경우에 최대우도추정법은 안정적

  • 로지스틱 회귀분석 함수 : glm()

    • glm(모형,data,family='binominal')

#최대우도추정법
> logit = glm(pmale~x,family = 'binomial',weights = total)
> summary (logit)
Call:
glm(formula = pmale ~ x, family = "binomial", weights = total)

Deviance Residuals: 
     1       2       3       4       5  
-2.224   2.248   1.239  -1.382  -1.191  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -61.3183    12.0224  -5.100 3.39e-07 ***
x             2.2110     0.4309   5.132 2.87e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 64.429  on 4  degrees of freedom
Residual deviance: 14.863  on 3  degrees of freedom
AIC: 33.542

Number of Fisher Scoring iterations: 5

#추정회귀식은 수컷 비율 = -61.3183+2.2110*x(온도)
#즉 -61.3183+2.2110 = 0 이 되는 27.3도 에서 암컷과 수컷을 구분짓는 경계값이 된다

#회귀계수를 해석한 것
> exp(-61.3183) * exp(2.2111*27)
[1] 0.198176
> exp(-61.3183) * exp(2.2111*28)
[1] 1.808504

#즉 28도에서 오즈 예측값은 27도에서의 오츠 예측값보다 exp(2.211) = 9.125배가 된다
  • anova() 함수 : 모형의 적합 단계별로 이탈도의 감소량유의성 검정 결과를 제시

  • 로지스틱 회귀 분석에도 선형회귀분석에서의 R^2 와 유사한 개념인 Mcfadden R^2 으로 모델 fit 확인
    • pR2()
> pR2(glm.vs)
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-10.3231464 -21.9300546  23.2138164   0.5292695   0.5158845   0.6914854

#r2CU(R^2) 값이 0.69인것으로 보아 모델이 데이터셋의 분산의 약 69.1% 정도 설명하고 있다.

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08

1. 시계열

  • 시계열(Time Series) 데이터

    • 관측치가 시간적 순서를 가지게 됨

    • 일정 시점에 조사된 데이터는 횡단 자료라 함

      • ex) 소비자물가지수

    • 미래 값을 예측하는 것

    • 시계열 데이터의 특성을 파악 - 경향,주기,계절성,불규칙성

  • 정상성

    • 시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것 -> 미래는 확률적으로 과거와 동일하다는 것을 뜻함

    • 조건

      1. 평균값은 시간 t에 관계없이 일정하다.

      2. 분산값은 시간 t에 관계없이 일정하다

      3. 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.

  • 비정상시계열을 정상시계열로 전환하는 방법

    1. 시계열의 평균이 일정하지 않은 경우에는 원시계열의 차분하면 정상 시계열이 됌

    2. 계절성을 갖는 비정상시계열은 정상시계열로 바꿀 때 계절차분을 사용

    3. 분산이 일정하지 않는 경우에는 원계열에 자연로그를 취하면 정상시계열이 된다

  • 백색잡음 과정 : 시계열 et의 평균이 0 분산이 일정한 값 2σ이고 자기 공분산이 0 인 경우

  • 자기상관은 시점 t와 (t-1) 간의 상관관계를 의미하며 한동안 증가하거나 감소하는 경우 양의 자기상관이 존재

    • 시점마다 증감이 반복되는 경우 음의 자기상관

  • 시계열 모형

    • 자기회귀모형 : 자신의 과거 값을 사용 (Autoregressive)

      • 현시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는데 있음

      • 현시점의 자료에 과거 1시점 이전의 자료만 영향을 준다면, 이를 1차 자기회귀모형 ( AR(1) 모형 ) 이라함

      • Y_t = α_1Y_1 + ... α_pY_p + ε_t

      • 자기상관함수가 시차가 증가함에 따라 점차적으로 감소, 부분자기상관함수는 시차 이후 급격히 감소하여 절단된 형태를 취함

    • 이동평균모형 : 최근 데이터의 평균(혹은 중앙치)을 예측치로 사용하는 방법

      • Y_t = ε_t - β_1ε_t - ... - β_qε_(t-q)

    • 자기회귀누적이동 모형 (ARIMA)

      • 비정상시계열모형

        • 차분이나 변환을 통해 AR,MA,ARMA 모형으로 정상화할 수 있음

        • AR : 과거시점의 관측자료의 선형결합으로 표현하는 것 - 자기회귀

        • MR : 과거 시점의 백색잡음 선형결합으로 표현하는 것 - 이동평균

        • ARMA : AR,MR 모형을 둘다 합친 것 - 자기회귀이동평균

    • 분해시계열

      • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

        • 추세요인 : 자료가 어떤 특정한 형태를 취할 때

        • 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 경우

        • 순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 때

        • 불규칙요인 : 위 세가지로 설명할 수 없을 때

      • decompose() - 시계열 자료를 4가지 요인으로 분해할 수 있음

      • diff() - 차분을 하는 함수

    • ARIMA 모델 적합 및 결정

      • acf() - 자기상관함수

      • pacf() - 부분자기상관함수

      • auto.arima() - 시계열 자료에 적절한 모형 제시

      • forecast() - arima 모형을 가지고 예측

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07

3. 다변량분석

  • 상관분석

    • 두 변수 간의 관련성을 파악하는 방법

      • 서열척도 : 스피어만 상관분석

      • 등간척도, 비율척도 : 피어슨 상관분석 , 편상관분석

    • 공분산 : 두 확률변수가 얼마나 같이 변하는지를 측정하는 것 (크기 변화의 방향이 같다면 공분산은 양의 값)

      • 공분산 값이 0, 관측값들이 4개 면에 균일하게 분포되어 있으면 서로 독립관계이다.

    • 상관계수와 상관관계

      • 상관계수 r의 범위 :  -1 <= r <= +1 (1에 가까울수록 상관이 높고 0에 접근할수록 상관이 낮음)

      • r = 0 : 두 변수 간에 직선적 관계가 없음을 의미 (어떤관계도 존재하지 않다는 것이 아님)

        • 산점도로 변수의 관계를 미리 알아보는 것이 중요

    • 상관분석 절차

      1. 산점도를 그려서 두 변수의 대략적 관계를 알아본다.

      2. 상관계수에 필요한 통계량을 구한다.

      3. 상관계수를 구한다.

      4. 모상관계수에 대한 유의성 검정을 한다.

      5. 결정계수를 구한다.

      6. 상관계수와 결정계수를 제시 -> 상관분석 결과를 설명

> cor.test(c(1,2,3,4,5),c(1,0,5,7,9),method='pearson')

	Pearson's product-moment correlation

data:  c(1, 2, 3, 4, 5) and c(1, 0, 5, 7, 9)
t = 5.019, df = 3, p-value = 0.01523
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3796883 0.9964882
sample estimates:
      cor 
0.9452942 

# P-value 가 0.01523 . 0.05보다 작으므로 상관관계가 유의한 것으로 나타남
  • 피어슨 상관계수 vs 스피어만 상관계수

    • 피어슨 상관계수

      • 두 변수 간의 선형관계의 크기를 측정하는 값 , 비선형적인 상관관계는 나타내지 못함 

      • 연속형 변수만 가능 (ex. 국어 점수와 영어 점수와의 상관계수)

    • 스피어만 상관계수

      • 두 변수 간의 비선형적인 관계도 나타낼 수 있음

      • 연속형 외에 이산형 순서형도 가능 (ex. 국어성적 석차와 영어성적 석차의 상관계수)

  • 결정계수

    • 총제곱합(SST) = 회귀제곱합(SSR) + 오차제곱합(SSE)  (SSR은 추정회귀방정식에 의해 설명되는 부분)

    • R^2 (결정계수) = 회귀제곱합(SSR) / 총제곱합(SST)

    • 독립변수(X)가 종속변수(Y)를 얼마나 설명할 수 있는지를 알려주고, 두 독립변수 간 상관관계 강도를 나타냄, 결정계수값이 클수록 회귀방적식과 상관계수의 설명력은 높아진다.

  • 주성분분석(PCA)

    • 변수의 수를 줄이는 차원 감소 기법 중 하나

      • 차원 축소의 분석 방법

        1. 주성분분석

        2. 요인분석

        3. 판별분석

        4. 군집분석

        5. 정준상관분석

        6. 다차원척도법

    • 상관관계가 있는 변수들을 선형 결합하여 변수를 축약하는 기법

> fit<-princomp(USArrests,cor=TRUE)
# princomp = 주성분분석 함수 
> summary(fit)
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4
Standard deviation     1.5748783 0.9948694 0.5971291 0.41644938
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752
Cumulative Proportion  0.6200604 0.8675017 0.9566425 1.00000000
> loadings(fit)

#주성분분석 하나가 전체분산의 62%를 설명하고있음
-> 첫 번째 주성분분석만 수용했을 때는 정보손실은 100-62 인 38%가 됨

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4
Murder    0.536  0.418  0.341  0.649
Assault   0.583  0.188  0.268 -0.743
UrbanPop  0.278 -0.873  0.378  0.134
Rape      0.543 -0.167 -0.818       

# 첫번째 주성분은 Murder/Assault/UrbanPop/Rape = 0.536/0.583/0.278/0.543

               Comp.1 Comp.2 Comp.3 Comp.4
SS loadings      1.00   1.00   1.00   1.00
Proportion Var   0.25   0.25   0.25   0.25
Cumulative Var   0.25   0.50   0.75   1.00
> plot(fit,type='lines')

# (스크리도표) 고유값이 1 보다 크며 하나의 요인이 변수 1개 이상의 분산은 설명한다는 의미
# 1보다 작다면 요인으로서 의미가 없음
  • 주성분분석 vs 요인분석

    • 주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화 -> 단순하게 데이터를 축소

    • 요인분석 : 자료의 축소라는 의미도 포함, 데이터에 내재적 속성까지 찾아내는 방법

  • biplot()

-> Murder , Assault , Rape 방향의 도시들의 범죄율이 높다는 것을 의미

-> UnderPop 방향이 인구비율이 높다는 것을 의미

 

통계적으로 '유의하다' 라는 말은 관찰된 현상이 우연에 의해 벌어질 가능성이 낮다는 말이다.

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[7] 데이터마이닝  (0) 2020.02.14
[6] 시계열 예측  (0) 2020.02.13
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07
[2] 데이터 마트  (0) 2020.02.06

+ Recent posts