1. 데이터 마이닝 개요
-
거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정
-
분류 : 새롭게 나타난 현상을 검토하여 기존의 분류 , 정의된 집합에 배정하는것
-
의사결정나무
-
memory - based reasoning
-
-
추정 : 연속된 변수의 값을 추정
-
신경망 모형
-
-
예측 : 미래의 양상을 예측, 미래의 값을 추정
-
장바구니 분석
-
의사결정나무
-
신경망
-
-
연관분석 : 아이템의 연관성을 파악하는 분석
-
장바구니 분석
-
-
군집 : 레코드 자체가 지니고 있는 다른 레코드와의 유사성에 의해 그룹화 되고 이질성에 의해 세분화
-
데이터마이닝,모델링 준비단계로서 사용
-
-
기술 : 데이터가 가지고 있는 의미를 단순한게 기술하는 것
-
-
데이터마이닝 5단계
-
목적정의
-
데이터준비
-
데이터가공
-
데이터마이닝 기법 적용
-
검증
-
2. 분류 분석
-
로지스틱회귀, 신경망 모형, 의사결정나무, 앙상블 모형, 규칙기반, 사례기반, 인접이웃분류모형 , 베이즈분류모형 , 서포트벡터기계, 유전자 알고리즘 이 있음
-
로지스틱 회귀모형
-
반응변수가 범주형인 경우에 적용되는 회귀분석 모형
-
종속변수와 독립변수 간의 관계식을 이용, 두 집단을 분류하고자 할 경우에 사용
-
독립변수에 대해 어떠한 가정도 필요로 하지 않음, 이산형,연속형 두 경우 모두 가능
-
지도 학습으로 분류
-
Odds ratio(오즈비) 같은 수치로 나타냄
-
Odds : 한 집단이 다른 집단에 비해 성공할 승산의 비에 대한 측정량
-
오즈비 : 성공률/실패율 = P_i / (1 - P_i) 단 P_i는 성공률
-
음이 아닌 실숫값, 성공이 일어날 가능성이 높은 경우에는 1.0보다 큰 값을, 반대로는 1.0 보다 작은 값을 가짐
-
-
일반성형 회귀분석 |
로지스틱 회귀분석 |
|
종속변수 |
연속형 변수 |
이산형 변수 |
모형 탐색 방법 |
최소자승법 |
최대우도법, 가중최소자승법 |
모형 검정 |
F-test , t-test |
x^2 test |
-
로지스틱 회귀모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있음 --> 로짓변환
summary(z)
Call:
lm(formula = pmale ~ x)
Residuals:
1 2 3 4 5
-0.29528 0.20532 0.20325 0.01356 -0.12685
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.9020 3.4737 -1.987 0.141
x 0.2673 0.1227 2.179 0.117
Residual standard error: 0.2496 on 3 degrees of freedom
Multiple R-squared: 0.6128, Adjusted R-squared: 0.4838
F-statistic: 4.748 on 1 and 3 DF, p-value: 0.1175
# 추정 회귀식 : -6.9020 + 0.2673 * x(온도)
p <- coefficients(z)[1] + coefficients(z)[2]*x
===================================================
#로짓변환
> logit = log(pmale/(1-pmale))
> z1 <- lm(logit~x)
> summary(z1)
Call:
lm(formula = logit ~ x)
Residuals:
1 2 3 4 5
-1.3837 1.1107 0.9930 -0.1976 -0.5224
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -51.1122 16.9415 -3.017 0.0569 .
x 1.8371 0.5983 3.070 0.0545 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.217 on 3 degrees of freedom
Multiple R-squared: 0.7586, Adjusted R-squared: 0.6781
F-statistic: 9.428 on 1 and 3 DF, p-value: 0.05454
#예측값 수컷비 예측값 출력
> logit2 <- coefficients(z1)[1] + coefficients(z1)[2] * x
> logit2
[1] -1.1420115 -0.2234416 0.8788422 1.0625562 3.8182657
> rmalehat <- exp(logit2)/(1+exp(logit2))
> rmalehat
[1] 0.2419512 0.4443709 0.7065822 0.7431787 0.9785063
-
최대우도추정법
-
관측값들이 가정된 모집단에서 하나의 표본으로 추출될 가능성이 가장 크게 되도록 하는 회귀계수 추정 방법.
-
표본의 수가 클 경우에 최대우도추정법은 안정적
-
-
로지스틱 회귀분석 함수 : glm()
-
glm(모형,data,family='binominal')
-
#최대우도추정법
> logit = glm(pmale~x,family = 'binomial',weights = total)
> summary (logit)
Call:
glm(formula = pmale ~ x, family = "binomial", weights = total)
Deviance Residuals:
1 2 3 4 5
-2.224 2.248 1.239 -1.382 -1.191
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -61.3183 12.0224 -5.100 3.39e-07 ***
x 2.2110 0.4309 5.132 2.87e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 64.429 on 4 degrees of freedom
Residual deviance: 14.863 on 3 degrees of freedom
AIC: 33.542
Number of Fisher Scoring iterations: 5
#추정회귀식은 수컷 비율 = -61.3183+2.2110*x(온도)
#즉 -61.3183+2.2110 = 0 이 되는 27.3도 에서 암컷과 수컷을 구분짓는 경계값이 된다
#회귀계수를 해석한 것
> exp(-61.3183) * exp(2.2111*27)
[1] 0.198176
> exp(-61.3183) * exp(2.2111*28)
[1] 1.808504
#즉 28도에서 오즈 예측값은 27도에서의 오츠 예측값보다 exp(2.211) = 9.125배가 된다
-
anova() 함수 : 모형의 적합 단계별로 이탈도의 감소량과 유의성 검정 결과를 제시
- 로지스틱 회귀 분석에도 선형회귀분석에서의 R^2 와 유사한 개념인 Mcfadden R^2 으로 모델 fit 확인
- pR2()
> pR2(glm.vs)
llh llhNull G2 McFadden r2ML r2CU
-10.3231464 -21.9300546 23.2138164 0.5292695 0.5158845 0.6914854
#r2CU(R^2) 값이 0.69인것으로 보아 모델이 데이터셋의 분산의 약 69.1% 정도 설명하고 있다.
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[9] 앙상블 모형 (0) | 2020.02.16 |
---|---|
[8] 신경망 모형 (0) | 2020.02.15 |
[6] 시계열 예측 (0) | 2020.02.13 |
[5] 기초 통계분석(2) (0) | 2020.02.12 |
[4] 기초 통계분석 (0) | 2020.02.08 |