[11] 군집분석

2020. 2. 19. 16:12

1. 군집분석

각 개체에 대해 관측된 여러 개의 변숫값들로부터 N개의 개체를 유사한 성격을 가지는 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악 하여 군집들 사이의 관계를 분석하는 다변량분석기법이다.
실루엣 : 거리가 가까울수록 높고 멀수록 낮은 지표 , 완벽히 분리된 경우 1이 되는 지표
계층적 군집
- 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
- 계통도 , 덴드로그램의 형태로 결과가 주어지며, 각 개체는 하나의 군집에만 속하게된다.
- 군집 간의 연결법에 따라 결과가 달라진다
  - 단일 연결법 : 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 ( 사슬모양 )
  - 완전 연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정
  - 평균 열결법 : 모든 항목에 대한 거리평균을 구하면서 군집화 -> 계산이 불필요하게 많아짐
  - 중심 연결법 : 두 군집의 중심간의 거리를 측정, 두 군집이 결합할 때 새로운 군집의 평균은 가중평균을 통해 구해짐
  - 와드 연결법 : 군집 내의 오차제곱합에 기초하여 군집을 수행
- 두 개체의 간의 거리에 기반하므로 거리측정 대한 정의가 필요
  - 수학적 거리
    - 유클리드
      - 두 점 사이의 거리를 계산 ( 방향성 고려 X )
    - 맨해튼 거리
      - 두 점 좌표 간의 절댓값 차이를 구하는 것
    - 민코프스키 거리
      - 가장 일반적으로 사용되는 minkowski 거리의 차수는 1, 2 ,∞ 이다.
      - q가 1이면 맨해튼 거리, q가 2이면 유클리디안 거리
  - 표준화 거리 ( 통계적 거리 )
    - 각 변수를 해당 변수의 표준편차로 척도 변환한 후 유클리드 거리를 계산한 거리
    - 마할라노비스
      - 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려
  - 계층적 군집에 사용하는 함수
    - 병합적 : agnes() , mclust()
    - 분할적 : diana() , mona()
- 계층적 군집 특징
  - 매 단계에서 지역적(local) 최적화를 수행해나가는 방법
비계층적 군집
- k-평균 군집 ( k - mean clustering )
  - 원하는 군집 수 만큼 초기값을 지정 -> 가까운 초기값을 할당하여 군집을 형성
  - 각 군집의 평균을 재계산하여 초기값을 갱신
  - Process
    1. 초기 군집 중심(centroid)으로 k개의 객체를 임의로 선택
    2. 각 자료를 가장 가까운 군집 중심에 할당, 즉 자료들의 군집의 중심점으로부터 오차제곱합이 최소가 되도록 각 자료를 할당
    3. 각 군집 내의 자료들의 평균을 계싼하여 군집의 중심을 갱신
    4. 군집 중심의 변화가 없을 때까지 단계 2와 단계 3을 반복
  - 장점
    - 알고리즘이 단순, 계층적 군집보다 많은 양의 데이터를 처리
    - 관찰치 간의 거리 데이터형태, 거의 모든 형태의 데이터에 적용이 가능
    - 내부 구조에 대한 사전적 정보 없이 의미 있는 자료로 분석 가능
  - 단점
    - 잡음이나 이상값에 영향을 받기 쉬움, 평균 대신 중앙값을 사용하는 k-medoids 군집을 사용 가능
    - 사전에 군집의 수를 정해주어야함 (Nbclust 패키지)
혼합분포군집
- 모형-기반의 군집방법
- 데이터가 k개의 모수적모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하, 모수와 함께 가중치를 자료로 부터 추정하는 방법
- k개의 각 모형은 군집을 의미
- 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM알고리즘이 사용
- EM 알고리즘
  - 혼합분포에서 잠재변수를 추정할 때 사용
  - 분석 데이터가 불완전하거나 결측치가 있고, 숨겨진 잠재변수가 있을 때 MLE추정치를 알아냄
  - 순서
    - 무작위로 k개의 클러스터를 초기화
    - 포인트가 클러스터에 포함될 확률 계산
    - MSL이 최대화하기 위한 분포의 파라미터를 계산
  - 단점 : 초기 클러스터의 개수를 정해주어야함
- k-means vs 혼합분포군집
  - k-means는 클러스터의 중심거리 / EM은 MSL 로 거리를 측정
  - 클러스터를 늘릴수록 중심에서의 평균거리가 짧아짐 / EM은 우도가 커짐
  - EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 소요 , 군집의 크기가 너무 작으면 추정의 정도가 떨어짐
  - 둘 다 이상값 자료에 민감
SOM ( 자기조직화지도)
- 인공신경망의 한 종류
- 차원 축소와 군집화를 동시에 수행하는 기법
- 입력 벡터를 훈련집합에서는 match가 되도록 가중치를 조정하는 인공 신경세포 격자에 기초한 자율학습의 한 방법
- 기능
  - Find Structures in data( 구조 탐색 ) : 데이터의 특징을 파악하여 유사데이터를 Clustering 함.
    
    고차원 데이터셋을 저차원 맵( 2D 그리드에 매핑 )에 표현하는 것, 이를 통해 입력 데이터를 유사한 그룹으로 분류
  - Dimension Reduction ( 차원 축소 ) & Visualization ( 시각화 ) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 인간이 시각적으로 인식할 수 있게 한다.
- Process
  - SOM 맵의 노드에 대한 연결 강도로 초기화
  - 입력벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력벡터와 가장 짧은 노드를 선택
  - 선택된 노드와 이웃 노드의 가중치(연결강도)를 수정
  - 단계 2로 가서 반복, 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
    
    경쟁층에는 승자 뉴런만이 남아 있음, 신경망은 역전파 알고리즘이지만
    
    SOM은 전방패스를 사용하여 속도가 매우 빠름
- 장점
  - 고차원의 데이터를 저차원의 지도 형태로 형상화
  - 입력변수의 위치 관계를 그대로 보존
- SOM vs 신경망 모형 비교
  - 신경망 모형은 연속적인 Layer로 구성 / SOM은 2차원 그리드로 구성
  - 신경망 모형은 에러를 수정 / SOM은 경쟁학습을 실시
  - SOM은 비지도학습 이다.

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석 (0)	2020.02.19
[10] 모형평가 (0)	2020.02.17
[9] 앙상블 모형 (0)	2020.02.16
[8] 신경망 모형 (0)	2020.02.15
[7] 데이터마이닝 (0)	2020.02.14

Programmiry

[11] 군집분석

1. 군집분석

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바