1. 군집분석

  • 각 개체에 대해 관측된 여러 개의 변숫값들로부터 N개의 개체를 유사한 성격을 가지는 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악 하여 군집들 사이의 관계를 분석하는 다변량분석기법이다.

  • 실루엣 : 거리가 가까울수록 높고 멀수록 낮은 지표 , 완벽히 분리된 경우 1이 되는 지표

  • 계층적 군집

    • 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법

    • 계통도 , 덴드로그램의 형태로 결과가 주어지며, 각 개체는 하나의 군집에만 속하게된다.

    • 군집 간의 연결법에 따라 결과가 달라진다

      • 단일 연결법 : 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 ( 사슬모양 )

      • 완전 연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정

      • 평균 열결법 : 모든 항목에 대한 거리평균을 구하면서 군집화 -> 계산이 불필요하게 많아짐

      • 중심 연결법 : 두 군집의 중심간의 거리를 측정, 두 군집이 결합할 때 새로운 군집의 평균은 가중평균을 통해 구해짐

      • 와드 연결법 : 군집 내의 오차제곱합에 기초하여 군집을 수행

    • 두 개체의 간의 거리에 기반하므로 거리측정 대한 정의가 필요

      • 수학적 거리 

        • 유클리드

          • 두 점 사이의 거리를 계산 ( 방향성 고려 X )

        • 맨해튼 거리

          • 두 점 좌표 간의 절댓값 차이를 구하는 것

        • 민코프스키 거리

          • 가장 일반적으로 사용되는 minkowski 거리의 차수는 1, 2 ,∞ 이다.

          • q가 1이면 맨해튼 거리, q가 2이면 유클리디안 거리

      • 표준화 거리 ( 통계적 거리 )

        • 각 변수를 해당 변수의 표준편차로 척도 변환한 후 유클리드 거리를 계산한 거리

        • 마할라노비스

          • 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려

             

             

      • 계층적 군집에 사용하는 함수

        • 병합적 : agnes() , mclust()

        • 분할적 : diana() , mona()

    • 계층적 군집 특징

      • 매 단계에서 지역적(local) 최적화를 수행해나가는 방법

  • 비계층적 군집

    • k-평균 군집 ( k - mean clustering )

      • 원하는 군집 수 만큼 초기값을 지정 -> 가까운 초기값을 할당하여 군집을 형성

      • 군집의 평균을 재계산하여 초기값을 갱신

      • Process

        1. 초기 군집 중심(centroid)으로 k개의 객체를 임의로 선택

        2. 각 자료를 가장 가까운 군집 중심에 할당, 즉 자료들의 군집의 중심점으로부터 오차제곱합이 최소가 되도록 각 자료를 할당

        3. 각 군집 내의 자료들의 평균을 계싼하여 군집의 중심을 갱신

        4. 군집 중심의 변화가 없을 때까지 단계 2와 단계 3을 반복

      • 장점

        • 알고리즘이 단순, 계층적 군집보다 많은 양의 데이터를 처리

        • 관찰치 간의 거리 데이터형태, 거의 모든 형태의 데이터에 적용이 가능

        • 내부 구조에 대한 사전적 정보 없이 의미 있는 자료로 분석 가능

      • 단점

        • 잡음이나 이상값에 영향을 받기 쉬움, 평균 대신 중앙값을 사용하는 k-medoids 군집을 사용 가능

        • 사전에 군집의 수를 정해주어야함 (Nbclust 패키지)

  • 혼합분포군집

    • 모형-기반의 군집방법

    • 데이터가 k개의 모수적모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하, 모수와 함께 가중치를 자료로 부터 추정하는 방법

    • k개의 각 모형은 군집을 의미

    • 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM알고리즘이 사용

    • EM 알고리즘

      • 혼합분포에서 잠재변수를 추정할 때 사용

      • 분석 데이터가 불완전하거나 결측치가 있고, 숨겨진 잠재변수가 있을 때 MLE추정치를 알아냄

      • 순서

        • 무작위로 k개의 클러스터를 초기화

        • 포인트가 클러스터에 포함될 확률 계산

        • MSL이 최대화하기 위한 분포의 파라미터를 계산

      • 단점 : 초기 클러스터의 개수를 정해주어야함

    • k-means vs 혼합분포군집

      • k-means는 클러스터의 중심거리 / EM은 MSL 로 거리를 측정

      • 클러스터를 늘릴수록 중심에서의 평균거리가 짧아짐 / EM은 우도가 커짐

      • EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 소요 , 군집의 크기가 너무 작으면 추정의 정도가 떨어짐

      • 둘 다 이상값 자료에 민감

  • SOM ( 자기조직화지도)

    • 인공신경망의 한 종류

    • 차원 축소군집화를 동시에 수행하는 기법

    • 입력 벡터를 훈련집합에서는 match가 되도록 가중치를 조정하는 인공 신경세포 격자에 기초한 자율학습의 한 방법

    • 기능

      • Find Structures in data( 구조 탐색 ) : 데이터의 특징을 파악하여 유사데이터를 Clustering 함.

        고차원 데이터셋을 저차원 맵( 2D 그리드에 매핑 )에 표현하는 것, 이를 통해 입력 데이터를 유사한 그룹으로 분류

      • Dimension Reduction ( 차원 축소 ) & Visualization ( 시각화 ) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 인간이 시각적으로 인식할 수 있게 한다.

    • Process

      • SOM 맵의 노드에 대한 연결 강도로 초기화

      • 입력벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력벡터와 가장 짧은 노드를 선택

      • 선택된 노드와 이웃 노드의 가중치(연결강도)를 수정

      • 단계 2로 가서 반복, 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨

        경쟁층에는 승자 뉴런만이 남아 있음, 신경망은 역전파 알고리즘이지만

        SOM은 전방패스를 사용하여 속도가 매우 빠름

    • 장점

      • 고차원의 데이터저차원의 지도 형태로 형상화

      • 입력변수의 위치 관계를 그대로 보존

    • SOM vs 신경망 모형 비교

      • 신경망 모형은 연속적인 Layer로 구성 / SOM은 2차원 그리드로 구성

      • 신경망 모형은 에러를 수정 / SOM은 경쟁학습을 실시

      • SOM은 비지도학습 이다.

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석  (0) 2020.02.19
[10] 모형평가  (0) 2020.02.17
[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14

+ Recent posts