3. 다변량분석
-
상관분석
-
두 변수 간의 관련성을 파악하는 방법
-
서열척도 : 스피어만 상관분석
-
등간척도, 비율척도 : 피어슨 상관분석 , 편상관분석
-
-
공분산 : 두 확률변수가 얼마나 같이 변하는지를 측정하는 것 (크기 변화의 방향이 같다면 공분산은 양의 값)
-
공분산 값이 0, 관측값들이 4개 면에 균일하게 분포되어 있으면 서로 독립관계이다.
-
-
상관계수와 상관관계
-
상관계수 r의 범위 : -1 <= r <= +1 (1에 가까울수록 상관이 높고 0에 접근할수록 상관이 낮음)
-
r = 0 : 두 변수 간에 직선적 관계가 없음을 의미 (어떤관계도 존재하지 않다는 것이 아님)
-
산점도로 변수의 관계를 미리 알아보는 것이 중요
-
-
-
상관분석 절차
-
산점도를 그려서 두 변수의 대략적 관계를 알아본다.
-
상관계수에 필요한 통계량을 구한다.
-
상관계수를 구한다.
-
모상관계수에 대한 유의성 검정을 한다.
-
결정계수를 구한다.
-
상관계수와 결정계수를 제시 -> 상관분석 결과를 설명
-
-
> cor.test(c(1,2,3,4,5),c(1,0,5,7,9),method='pearson')
Pearson's product-moment correlation
data: c(1, 2, 3, 4, 5) and c(1, 0, 5, 7, 9)
t = 5.019, df = 3, p-value = 0.01523
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3796883 0.9964882
sample estimates:
cor
0.9452942
# P-value 가 0.01523 . 0.05보다 작으므로 상관관계가 유의한 것으로 나타남
-
피어슨 상관계수 vs 스피어만 상관계수
-
피어슨 상관계수
-
두 변수 간의 선형관계의 크기를 측정하는 값 , 비선형적인 상관관계는 나타내지 못함
-
연속형 변수만 가능 (ex. 국어 점수와 영어 점수와의 상관계수)
-
-
스피어만 상관계수
-
두 변수 간의 비선형적인 관계도 나타낼 수 있음
-
연속형 외에 이산형 순서형도 가능 (ex. 국어성적 석차와 영어성적 석차의 상관계수)
-
-
-
결정계수
-
총제곱합(SST) = 회귀제곱합(SSR) + 오차제곱합(SSE) (SSR은 추정회귀방정식에 의해 설명되는 부분)
-
R^2 (결정계수) = 회귀제곱합(SSR) / 총제곱합(SST)
-
독립변수(X)가 종속변수(Y)를 얼마나 설명할 수 있는지를 알려주고, 두 독립변수 간 상관관계 강도를 나타냄, 결정계수값이 클수록 회귀방적식과 상관계수의 설명력은 높아진다.
-
-
주성분분석(PCA)
-
변수의 수를 줄이는 차원 감소 기법 중 하나
-
차원 축소의 분석 방법
-
주성분분석
-
요인분석
-
판별분석
-
군집분석
-
정준상관분석
-
다차원척도법
-
-
-
상관관계가 있는 변수들을 선형 결합하여 변수를 축약하는 기법
-
> fit<-princomp(USArrests,cor=TRUE)
# princomp = 주성분분석 함수
> summary(fit)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.5748783 0.9948694 0.5971291 0.41644938
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752
Cumulative Proportion 0.6200604 0.8675017 0.9566425 1.00000000
> loadings(fit)
#주성분분석 하나가 전체분산의 62%를 설명하고있음
-> 첫 번째 주성분분석만 수용했을 때는 정보손실은 100-62 인 38%가 됨
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Murder 0.536 0.418 0.341 0.649
Assault 0.583 0.188 0.268 -0.743
UrbanPop 0.278 -0.873 0.378 0.134
Rape 0.543 -0.167 -0.818
# 첫번째 주성분은 Murder/Assault/UrbanPop/Rape = 0.536/0.583/0.278/0.543
Comp.1 Comp.2 Comp.3 Comp.4
SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00
> plot(fit,type='lines')
# (스크리도표) 고유값이 1 보다 크며 하나의 요인이 변수 1개 이상의 분산은 설명한다는 의미
# 1보다 작다면 요인으로서 의미가 없음
-
주성분분석 vs 요인분석
-
주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화 -> 단순하게 데이터를 축소
-
요인분석 : 자료의 축소라는 의미도 포함, 데이터에 내재적 속성까지 찾아내는 방법
-
-
biplot()
-> Murder , Assault , Rape 방향의 도시들의 범죄율이 높다는 것을 의미
-> UnderPop 방향이 인구비율이 높다는 것을 의미
통계적으로 '유의하다' 라는 말은 관찰된 현상이 우연에 의해 벌어질 가능성이 낮다는 말이다.
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[7] 데이터마이닝 (0) | 2020.02.14 |
---|---|
[6] 시계열 예측 (0) | 2020.02.13 |
[4] 기초 통계분석 (0) | 2020.02.08 |
[3] 통계분석 (0) | 2020.02.07 |
[2] 데이터 마트 (0) | 2020.02.06 |