1. 데이터 마이닝 개요

  • 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정

    1. 분류 : 새롭게 나타난 현상을 검토하여 기존의 분류 , 정의된 집합에 배정하는것

      1. 의사결정나무

      2. memory - based reasoning

    2. 추정 : 연속된 변수의 값을 추정

      1. 신경망 모형

    3. 예측 : 미래의 양상을 예측, 미래의 값을 추정

      1. 장바구니 분석

      2. 의사결정나무

      3. 신경망

    4. 연관분석 : 아이템의 연관성을 파악하는 분석

      1. 장바구니 분석

    5. 군집 : 레코드 자체가 지니고 있는 다른 레코드와의 유사성에 의해 그룹화 되고 이질성에 의해 세분화

      1. 데이터마이닝,모델링 준비단계로서 사용

    6. 기술 : 데이터가 가지고 있는 의미를 단순한게 기술하는 것

  • 데이터마이닝 5단계

    1. 목적정의

    2. 데이터준비

    3. 데이터가공

    4. 데이터마이닝 기법 적용

    5. 검증

2. 분류 분석

  • 로지스틱회귀, 신경망 모형, 의사결정나무, 앙상블 모형, 규칙기반, 사례기반, 인접이웃분류모형 , 베이즈분류모형 , 서포트벡터기계, 유전자 알고리즘 이 있음

  • 로지스틱 회귀모형

    • 반응변수가 범주형인 경우에 적용되는 회귀분석 모형

    • 종속변수와 독립변수 간의 관계식을 이용, 두 집단을 분류하고자 할 경우에 사용

    • 독립변수에 대해 어떠한 가정도 필요로 하지 않음, 이산형,연속형 두 경우 모두 가능

    • 지도 학습으로 분류

    • Odds ratio(오즈비) 같은 수치로 나타냄

      • Odds : 한 집단이 다른 집단에 비해 성공할 승산의 비에 대한 측정량

      • 오즈비 : 성공률/실패율 = P_i / (1 - P_i) 단 P_i는 성공률

      • 음이 아닌 실숫값, 성공이 일어날 가능성이 높은 경우에는 1.0보다 큰 값을, 반대로는 1.0 보다 작은 값을 가짐

 

일반성형 회귀분석

로지스틱 회귀분석

종속변수

연속형 변수

이산형 변수

모형 탐색 방법

최소자승법

최대우도법, 가중최소자승법

모형 검정

F-test  ,  t-test

x^2 test

  • 로지스틱 회귀모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있음 --> 로짓변환

 summary(z)

Call:
lm(formula = pmale ~ x)

Residuals:
       1        2        3        4        5 
-0.29528  0.20532  0.20325  0.01356 -0.12685 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  -6.9020     3.4737  -1.987    0.141
x             0.2673     0.1227   2.179    0.117

Residual standard error: 0.2496 on 3 degrees of freedom
Multiple R-squared:  0.6128,	Adjusted R-squared:  0.4838 
F-statistic: 4.748 on 1 and 3 DF,  p-value: 0.1175

# 추정 회귀식 : -6.9020 + 0.2673 * x(온도)

p <- coefficients(z)[1] + coefficients(z)[2]*x

===================================================
#로짓변환
> logit = log(pmale/(1-pmale))
> z1 <- lm(logit~x)
> summary(z1)

Call:
lm(formula = logit ~ x)

Residuals:
      1       2       3       4       5 
-1.3837  1.1107  0.9930 -0.1976 -0.5224 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) -51.1122    16.9415  -3.017   0.0569 .
x             1.8371     0.5983   3.070   0.0545 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.217 on 3 degrees of freedom
Multiple R-squared:  0.7586,	Adjusted R-squared:  0.6781 
F-statistic: 9.428 on 1 and 3 DF,  p-value: 0.05454

#예측값 수컷비 예측값 출력
> logit2 <- coefficients(z1)[1] + coefficients(z1)[2] * x
> logit2
[1] -1.1420115 -0.2234416  0.8788422  1.0625562  3.8182657
> rmalehat <- exp(logit2)/(1+exp(logit2))
> rmalehat
[1] 0.2419512 0.4443709 0.7065822 0.7431787 0.9785063
  • 최대우도추정법

    • 관측값들이 가정된 모집단에서 하나의 표본으로 추출될 가능성이 가장 크게 되도록 하는 회귀계수 추정 방법.

    • 표본의 수가 클 경우에 최대우도추정법은 안정적

  • 로지스틱 회귀분석 함수 : glm()

    • glm(모형,data,family='binominal')

#최대우도추정법
> logit = glm(pmale~x,family = 'binomial',weights = total)
> summary (logit)
Call:
glm(formula = pmale ~ x, family = "binomial", weights = total)

Deviance Residuals: 
     1       2       3       4       5  
-2.224   2.248   1.239  -1.382  -1.191  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -61.3183    12.0224  -5.100 3.39e-07 ***
x             2.2110     0.4309   5.132 2.87e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 64.429  on 4  degrees of freedom
Residual deviance: 14.863  on 3  degrees of freedom
AIC: 33.542

Number of Fisher Scoring iterations: 5

#추정회귀식은 수컷 비율 = -61.3183+2.2110*x(온도)
#즉 -61.3183+2.2110 = 0 이 되는 27.3도 에서 암컷과 수컷을 구분짓는 경계값이 된다

#회귀계수를 해석한 것
> exp(-61.3183) * exp(2.2111*27)
[1] 0.198176
> exp(-61.3183) * exp(2.2111*28)
[1] 1.808504

#즉 28도에서 오즈 예측값은 27도에서의 오츠 예측값보다 exp(2.211) = 9.125배가 된다
  • anova() 함수 : 모형의 적합 단계별로 이탈도의 감소량유의성 검정 결과를 제시

  • 로지스틱 회귀 분석에도 선형회귀분석에서의 R^2 와 유사한 개념인 Mcfadden R^2 으로 모델 fit 확인
    • pR2()
> pR2(glm.vs)
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-10.3231464 -21.9300546  23.2138164   0.5292695   0.5158845   0.6914854

#r2CU(R^2) 값이 0.69인것으로 보아 모델이 데이터셋의 분산의 약 69.1% 정도 설명하고 있다.

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08

+ Recent posts