3. 다변량분석

  • 상관분석

    • 두 변수 간의 관련성을 파악하는 방법

      • 서열척도 : 스피어만 상관분석

      • 등간척도, 비율척도 : 피어슨 상관분석 , 편상관분석

    • 공분산 : 두 확률변수가 얼마나 같이 변하는지를 측정하는 것 (크기 변화의 방향이 같다면 공분산은 양의 값)

      • 공분산 값이 0, 관측값들이 4개 면에 균일하게 분포되어 있으면 서로 독립관계이다.

    • 상관계수와 상관관계

      • 상관계수 r의 범위 :  -1 <= r <= +1 (1에 가까울수록 상관이 높고 0에 접근할수록 상관이 낮음)

      • r = 0 : 두 변수 간에 직선적 관계가 없음을 의미 (어떤관계도 존재하지 않다는 것이 아님)

        • 산점도로 변수의 관계를 미리 알아보는 것이 중요

    • 상관분석 절차

      1. 산점도를 그려서 두 변수의 대략적 관계를 알아본다.

      2. 상관계수에 필요한 통계량을 구한다.

      3. 상관계수를 구한다.

      4. 모상관계수에 대한 유의성 검정을 한다.

      5. 결정계수를 구한다.

      6. 상관계수와 결정계수를 제시 -> 상관분석 결과를 설명

> cor.test(c(1,2,3,4,5),c(1,0,5,7,9),method='pearson')

	Pearson's product-moment correlation

data:  c(1, 2, 3, 4, 5) and c(1, 0, 5, 7, 9)
t = 5.019, df = 3, p-value = 0.01523
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3796883 0.9964882
sample estimates:
      cor 
0.9452942 

# P-value 가 0.01523 . 0.05보다 작으므로 상관관계가 유의한 것으로 나타남
  • 피어슨 상관계수 vs 스피어만 상관계수

    • 피어슨 상관계수

      • 두 변수 간의 선형관계의 크기를 측정하는 값 , 비선형적인 상관관계는 나타내지 못함 

      • 연속형 변수만 가능 (ex. 국어 점수와 영어 점수와의 상관계수)

    • 스피어만 상관계수

      • 두 변수 간의 비선형적인 관계도 나타낼 수 있음

      • 연속형 외에 이산형 순서형도 가능 (ex. 국어성적 석차와 영어성적 석차의 상관계수)

  • 결정계수

    • 총제곱합(SST) = 회귀제곱합(SSR) + 오차제곱합(SSE)  (SSR은 추정회귀방정식에 의해 설명되는 부분)

    • R^2 (결정계수) = 회귀제곱합(SSR) / 총제곱합(SST)

    • 독립변수(X)가 종속변수(Y)를 얼마나 설명할 수 있는지를 알려주고, 두 독립변수 간 상관관계 강도를 나타냄, 결정계수값이 클수록 회귀방적식과 상관계수의 설명력은 높아진다.

  • 주성분분석(PCA)

    • 변수의 수를 줄이는 차원 감소 기법 중 하나

      • 차원 축소의 분석 방법

        1. 주성분분석

        2. 요인분석

        3. 판별분석

        4. 군집분석

        5. 정준상관분석

        6. 다차원척도법

    • 상관관계가 있는 변수들을 선형 결합하여 변수를 축약하는 기법

> fit<-princomp(USArrests,cor=TRUE)
# princomp = 주성분분석 함수 
> summary(fit)
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4
Standard deviation     1.5748783 0.9948694 0.5971291 0.41644938
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752
Cumulative Proportion  0.6200604 0.8675017 0.9566425 1.00000000
> loadings(fit)

#주성분분석 하나가 전체분산의 62%를 설명하고있음
-> 첫 번째 주성분분석만 수용했을 때는 정보손실은 100-62 인 38%가 됨

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4
Murder    0.536  0.418  0.341  0.649
Assault   0.583  0.188  0.268 -0.743
UrbanPop  0.278 -0.873  0.378  0.134
Rape      0.543 -0.167 -0.818       

# 첫번째 주성분은 Murder/Assault/UrbanPop/Rape = 0.536/0.583/0.278/0.543

               Comp.1 Comp.2 Comp.3 Comp.4
SS loadings      1.00   1.00   1.00   1.00
Proportion Var   0.25   0.25   0.25   0.25
Cumulative Var   0.25   0.50   0.75   1.00
> plot(fit,type='lines')

# (스크리도표) 고유값이 1 보다 크며 하나의 요인이 변수 1개 이상의 분산은 설명한다는 의미
# 1보다 작다면 요인으로서 의미가 없음
  • 주성분분석 vs 요인분석

    • 주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화 -> 단순하게 데이터를 축소

    • 요인분석 : 자료의 축소라는 의미도 포함, 데이터에 내재적 속성까지 찾아내는 방법

  • biplot()

-> Murder , Assault , Rape 방향의 도시들의 범죄율이 높다는 것을 의미

-> UnderPop 방향이 인구비율이 높다는 것을 의미

 

통계적으로 '유의하다' 라는 말은 관찰된 현상이 우연에 의해 벌어질 가능성이 낮다는 말이다.

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[7] 데이터마이닝  (0) 2020.02.14
[6] 시계열 예측  (0) 2020.02.13
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07
[2] 데이터 마트  (0) 2020.02.06

+ Recent posts