1. 군집분석
-
각 개체에 대해 관측된 여러 개의 변숫값들로부터 N개의 개체를 유사한 성격을 가지는 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악 하여 군집들 사이의 관계를 분석하는 다변량분석기법이다.
-
실루엣 : 거리가 가까울수록 높고 멀수록 낮은 지표 , 완벽히 분리된 경우 1이 되는 지표
-
계층적 군집
-
가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
-
계통도 , 덴드로그램의 형태로 결과가 주어지며, 각 개체는 하나의 군집에만 속하게된다.
-
군집 간의 연결법에 따라 결과가 달라진다
-
단일 연결법 : 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 ( 사슬모양 )
-
완전 연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정
-
평균 열결법 : 모든 항목에 대한 거리평균을 구하면서 군집화 -> 계산이 불필요하게 많아짐
-
중심 연결법 : 두 군집의 중심간의 거리를 측정, 두 군집이 결합할 때 새로운 군집의 평균은 가중평균을 통해 구해짐
-
와드 연결법 : 군집 내의 오차제곱합에 기초하여 군집을 수행
-
-
두 개체의 간의 거리에 기반하므로 거리측정 대한 정의가 필요
-
수학적 거리
-
유클리드
-
두 점 사이의 거리를 계산 ( 방향성 고려 X )
-
-
맨해튼 거리
-
두 점 좌표 간의 절댓값 차이를 구하는 것
-
-
민코프스키 거리
-
가장 일반적으로 사용되는 minkowski 거리의 차수는 1, 2 ,∞ 이다.
-
q가 1이면 맨해튼 거리, q가 2이면 유클리디안 거리
-
-
-
표준화 거리 ( 통계적 거리 )
-
각 변수를 해당 변수의 표준편차로 척도 변환한 후 유클리드 거리를 계산한 거리
-
마할라노비스
-
변수의 표준화와 함께 변수 간의 상관성을 동시에 고려
-
-
-
계층적 군집에 사용하는 함수
-
병합적 : agnes() , mclust()
-
분할적 : diana() , mona()
-
-
-
계층적 군집 특징
-
매 단계에서 지역적(local) 최적화를 수행해나가는 방법
-
-
-
비계층적 군집
-
k-평균 군집 ( k - mean clustering )
-
원하는 군집 수 만큼 초기값을 지정 -> 가까운 초기값을 할당하여 군집을 형성
-
각 군집의 평균을 재계산하여 초기값을 갱신
-
Process
-
초기 군집 중심(centroid)으로 k개의 객체를 임의로 선택
-
각 자료를 가장 가까운 군집 중심에 할당, 즉 자료들의 군집의 중심점으로부터 오차제곱합이 최소가 되도록 각 자료를 할당
-
각 군집 내의 자료들의 평균을 계싼하여 군집의 중심을 갱신
-
군집 중심의 변화가 없을 때까지 단계 2와 단계 3을 반복
-
-
장점
-
알고리즘이 단순, 계층적 군집보다 많은 양의 데이터를 처리
-
관찰치 간의 거리 데이터형태, 거의 모든 형태의 데이터에 적용이 가능
-
내부 구조에 대한 사전적 정보 없이 의미 있는 자료로 분석 가능
-
-
단점
-
잡음이나 이상값에 영향을 받기 쉬움, 평균 대신 중앙값을 사용하는 k-medoids 군집을 사용 가능
-
사전에 군집의 수를 정해주어야함 (Nbclust 패키지)
-
-
-
-
혼합분포군집
-
모형-기반의 군집방법
-
데이터가 k개의 모수적모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하, 모수와 함께 가중치를 자료로 부터 추정하는 방법
-
k개의 각 모형은 군집을 의미
-
혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM알고리즘이 사용
-
EM 알고리즘
-
혼합분포에서 잠재변수를 추정할 때 사용
-
분석 데이터가 불완전하거나 결측치가 있고, 숨겨진 잠재변수가 있을 때 MLE추정치를 알아냄
-
순서
-
무작위로 k개의 클러스터를 초기화
-
포인트가 클러스터에 포함될 확률 계산
-
MSL이 최대화하기 위한 분포의 파라미터를 계산
-
-
단점 : 초기 클러스터의 개수를 정해주어야함
-
-
k-means vs 혼합분포군집
-
k-means는 클러스터의 중심거리 / EM은 MSL 로 거리를 측정
-
클러스터를 늘릴수록 중심에서의 평균거리가 짧아짐 / EM은 우도가 커짐
-
EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 소요 , 군집의 크기가 너무 작으면 추정의 정도가 떨어짐
-
둘 다 이상값 자료에 민감
-
-
-
SOM ( 자기조직화지도)
-
인공신경망의 한 종류
-
차원 축소와 군집화를 동시에 수행하는 기법
-
입력 벡터를 훈련집합에서는 match가 되도록 가중치를 조정하는 인공 신경세포 격자에 기초한 자율학습의 한 방법
-
기능
-
Find Structures in data( 구조 탐색 ) : 데이터의 특징을 파악하여 유사데이터를 Clustering 함.
고차원 데이터셋을 저차원 맵( 2D 그리드에 매핑 )에 표현하는 것, 이를 통해 입력 데이터를 유사한 그룹으로 분류
-
Dimension Reduction ( 차원 축소 ) & Visualization ( 시각화 ) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 인간이 시각적으로 인식할 수 있게 한다.
-
-
Process
-
SOM 맵의 노드에 대한 연결 강도로 초기화
-
입력벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력벡터와 가장 짧은 노드를 선택
-
선택된 노드와 이웃 노드의 가중치(연결강도)를 수정
-
단계 2로 가서 반복, 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
경쟁층에는 승자 뉴런만이 남아 있음, 신경망은 역전파 알고리즘이지만
SOM은 전방패스를 사용하여 속도가 매우 빠름
-
-
장점
-
고차원의 데이터를 저차원의 지도 형태로 형상화
-
입력변수의 위치 관계를 그대로 보존
-
-
SOM vs 신경망 모형 비교
-
신경망 모형은 연속적인 Layer로 구성 / SOM은 2차원 그리드로 구성
-
신경망 모형은 에러를 수정 / SOM은 경쟁학습을 실시
-
SOM은 비지도학습 이다.
-
-
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[12] 연관분석 (0) | 2020.02.19 |
---|---|
[10] 모형평가 (0) | 2020.02.17 |
[9] 앙상블 모형 (0) | 2020.02.16 |
[8] 신경망 모형 (0) | 2020.02.15 |
[7] 데이터마이닝 (0) | 2020.02.14 |