1. 회귀분석(★)

  • 단수회귀와 중귀회분석의 개념

    • 회귀분석 : 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법, 독립변수의 값에 의하여 종속변수의 값을 예측하기 위함

      • 독립변수 : 종속변수에 영향을 미치는 변수

      • 종속변수 : 분석의 대상이 되는 변수

  • 선형회귀모형

    • X와 Y가 1차식으로 나타날 때 선형회귀모형이 됨, 전제조건이 있음

      1. 독립변수 X의 각 값에 대한 Y의 확률분포가 존재

      2. Y의 확률분포의 평균은 X값의 변함에 따라 일정한 추세를 따라 움직임

단순회귀모형 식

  • 단순회귀모형

    • Y_i : i 번째 종속변수의 값

    • X_i : i 번째 독립변수의 값

    • β_0 : 선형회귀식의 절편

    • β_1 : 선형회귀식의 기울기

    • ε_i : 오차항 , 독립저이며 N(0,δ^2)의 분포를 이룸

  • 회귀모형 대한 가정

    1. 선형성 - 독립변수의 변화에 따라 종속변수도 변화하는 선형(Linear)인 모형

    2. 독립성 - 잔차와 독립변수의 값이 서로 독립

    3. 등분산성 - 오차항들의 분포는 동일한 분산

    4. 비상관성 - 잔차들끼리 상관이 없음

    5. 정상성 - 잔차항이 정규분포를 이뤄야함

  • 회귀분석 모형에서 확인해야 할 사항

    • 모형이 통계적으로 유의미한가? -> F분포값유의확률(p-value)로 확인

    • 회귀계수들이 유의미한가? -> 회귀계수의 t값유의확률(p-value)로 확인

    • 모형이 얼마나 설명력을 갖는가? -> 결정 계수를 확인

    • 모형이 데이터를 잘 적합하고 있는가? -> 잔차통계량을 확인하고 회귀진단 실행

  • 모델 진단 그래프

    • Residuals vs Fitted : y축은 잔차. 선형 회귀에서 오차는 평균이 0 이고 분산이 일정한 정규분포를 가정 -> y값은 기울기가 0 인 직선이 이상적

    • Normal Q-Q : 잔차가 정규분포를 잘 따르고 있는지를 확인하는 그래프(잔차들이 선상에 있어야 이상적)

    • Scale-Location : y축은 표준화 잔차. 기울기 0이 이상적, 0에서 멀리 떨어진 값 : 이상치일 가능성 높음

    • Cook's Distance : 1값이 넘어가면 관측치를 영향점으로 판별

  • 다중공선성

    • 모형의 일부 예측변수가 다른 예측변수와 상관되어 있을 때 발생하는 조건

    • VIF 값이 4가 넘으면 다중공선성 존재

      • 해결방안 : 높은 상관관계가 있는 예측변수를 모형에서 제거 (R-Square 감소)

  • 최적 회귀방정식의 선택 : 설명변수의 선택

    • y에 영향을 미칠 수 있는 모든 설명변수 x들은 y의 값을 예측하는 데참여

    • 가능한 범위내에서 적은 수 의 설명변수를 포함시켜야함

  • 설명 변수를 선택하는 방법

    • 모든 가능한 조합의 회귀분석

      • AIC , BIC

        • 적합성을 측정해주는 지표. AIC,BIC 값이 작은 것이 좋음

    • 단계별 변수선택

      • 단계별 선택

        • 통계치에서 가장 도움이 안되는 변수를 삭제, 기준 통계치를 가장 개선시키는 변수 추가

      • 후진 제거법

        • 기준 통계치에서 가장 도움이 되지 않는 변수를 하나씩 제거

      • 전진 선택법

        • 절편만 있는 모델에서 기준 통계치를 많이 개선 시키는 변수를 차례로 추가

      • step() 함수로 수행

> x1<-c(7,1,11,11,7,11,3,1,2,21,1,11,10)
> x2<-c(26,29,56,31,52,55,71,31,54,47,40,66,68)
> x3<-c(6,15,8,8,6,9,17,22,18,4,23,9,8)
> x4<-c(60,52,20,47,33,22,6,44,22,26,34,12,12)
> y<-c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4)
> df<-data.frame(x1,x2,x3,x4,y)
####변수 설정####
> head(df)
  x1 x2 x3 x4     y
1  7 26  6 60  78.5
2  1 29 15 52  74.3
3 11 56  8 20 104.3
4 11 31  8 47  87.6
5  7 52  6 33  95.9
6 11 55  9 22 109.2
#### 후진제거법 ####
> a<-lm(y~x1+x2+x3+x4,data=df)
> a

Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = df)

Coefficients:
(Intercept)           x1           x2           x3           x4  
    62.4054       1.5511       0.5102       0.1019      -0.1441  

> summary(a)

Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1750 -1.6709  0.2508  1.3783  3.9254 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  62.4054    70.0710   0.891   0.3991  
x1            1.5511     0.7448   2.083   0.0708 .
x2            0.5102     0.7238   0.705   0.5009  
x3            0.1019     0.7547   0.135   0.8959  
x4           -0.1441     0.7091  -0.203   0.8441  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.446 on 8 degrees of freedom
Multiple R-squared:  0.9824,	Adjusted R-squared:  0.9736 
F-statistic: 111.5 on 4 and 8 DF,  p-value: 4.756e-07
## Pr(>|t|) (유의확률(P-value))가 가장 높은 x3 제거
> a<-lm(y~x1+x2+x4,data=df)
> a

Call:
lm(formula = y ~ x1 + x2 + x4, data = df)

Coefficients:
(Intercept)           x1           x2           x4  
    71.6483       1.4519       0.4161      -0.2365  

> summary(a)

Call:
lm(formula = y ~ x1 + x2 + x4, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.0919 -1.8016  0.2562  1.2818  3.8982 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  71.6483    14.1424   5.066 0.000675 ***
x1            1.4519     0.1170  12.410 5.78e-07 ***
x2            0.4161     0.1856   2.242 0.051687 .  
x4           -0.2365     0.1733  -1.365 0.205395    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.309 on 9 degrees of freedom
Multiple R-squared:  0.9823,	Adjusted R-squared:  0.9764 
F-statistic: 166.8 on 3 and 9 DF,  p-value: 3.323e-08
## 유의확률이 가장 높은 x4 제거
> a<-lm(y~x1+x2,data=df)
> summary(a)

Call:
lm(formula = y ~ x1 + x2, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-2.893 -1.574 -1.302  1.363  4.048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 52.57735    2.28617   23.00 5.46e-10 ***
x1           1.46831    0.12130   12.11 2.69e-07 ***
x2           0.66225    0.04585   14.44 5.03e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.406 on 10 degrees of freedom
Multiple R-squared:  0.9787,	Adjusted R-squared:  0.9744 
F-statistic: 229.5 on 2 and 10 DF,  p-value: 4.407e-09

####전진 선택법####
> step(lm(y~1,df),scope=list(lower=~1,upper=~x1+x2+x3+x4),direction="forward")
Start:  AIC=71.44
y ~ 1

       Df Sum of Sq     RSS    AIC
+ x4    1   1831.90  883.87 58.852
+ x2    1   1809.43  906.34 59.178
+ x1    1   1450.08 1265.69 63.519
+ x3    1    776.36 1939.40 69.067
<none>              2715.76 71.444

Step:  AIC=58.85
y ~ x4

       Df Sum of Sq    RSS    AIC
+ x1    1    809.10  74.76 28.742
+ x3    1    708.13 175.74 39.853
<none>              883.87 58.852
+ x2    1     14.99 868.88 60.629

Step:  AIC=28.74
y ~ x4 + x1

       Df Sum of Sq    RSS    AIC
+ x2    1    26.789 47.973 24.974
+ x3    1    23.926 50.836 25.728
<none>              74.762 28.742

Step:  AIC=24.97
y ~ x4 + x1 + x2

       Df Sum of Sq    RSS    AIC
<none>              47.973 24.974
+ x3    1   0.10909 47.864 26.944

Call:
lm(formula = y ~ x4 + x1 + x2, data = df)

Coefficients:
(Intercept)           x4           x1           x2  
    71.6483      -0.2365       1.4519       0.4161  
  • AIC : Step() 함수이용

  • BIC : leaps 패키지의 redsubsets() 함수 이용

 

  • 정규화 선형회귀

    • 선형회귀계수에 대한 제약 조건을 추가 ( 과적합을 막는 방법 )

      • 딥러닝에서의 과적합 막는 방법

        • 더 많은 데이터 사용

        • Cross Validation

        • 정규화(Regularization) - Ridge 회귀모형, Lasso 회귀모형 , Elastic Net 회귀모형

    • Lidge (릿지) 회귀

      • 평균제곱오차(MSE)를 최소화하면서 회귀계수 벡터 β 의 L2 norm 을 최소화 하는 기법

      • cost = ∑(e_i)^2 + λ∑(ω_i)^2

      • λ는 기존 잔차 제곱합과 추가적 제약 조건의 비중을 조절하기위한 하이퍼모수

        • 클수록 정규화 정도가 커지고 가중치 값들이 작아짐 -> 0이 되면 선형회귀모형

      • Norm은 벡터의 길이 혹은 크기를 측정하는 방법(함수)

        • L1 Norm(라소회귀) - 각 요소 절댓값 크기의 합

        • L2 Norm(릿지회귀) - 해당 차원의 좌표평면에서 원점에서 백터 좌표까지의 최단 거리

    • Lasso (라소) 회귀

      • L1 Norm을 제약함 ( 가중치의 절댓값의 합을 최소화 )

      • cost = ∑(e_i)^2 + λ∑|ω_i|

    • Elastic Net (엘라스틱넷) 회귀 모형

      • 제약식에 Norm 모두를 쓰는 기법

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[3] 통계분석  (0) 2020.02.07
[2] 데이터 마트  (0) 2020.02.06
[1] R 기초  (0) 2020.02.06

1. 통계학 개론

  • 모집단과 표본

    • 모집단 : 관심의 대상이 되는 모든 개체의 집합

      • 모평균 , 모분산 => 모수

    • 표본 : 모집단에서 분석 대상으로 관찰된 일부의 집합 (모집단의 일부)

      • 표본평균 , 표본분산 => 통계량

    • 표본추출 방법

      • 확률적 추출

        1. 단순 무작위추출 : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우

        2. 계통추출 : 첫 번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택

        3. 층화추출 : 모집단을 성격에 따라 몇 개의 집단/층 으로 나누고 각 집단 내에서 원하는 크기의 표본 무작위 추출

        4. 군집추출 : 여러개의 집단(cluster)로 나누고 이 중 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택

      • 비확률적 추출

        1. 판단추출 : 자신의 판단에 따라 표본을 선택하는 경우

        2. 할당추출 : 모집단을 나누고, 각 집단에서 필요한 개수의 표본을 선택하되 자신의 판단에 따라 선택하는 경우

        3. 편의추출 : 연구자가 쉽게 접근할 수 있는 표본을 선택하는 경우

    • 자료의 종류

      • 척도(Scale) : 측정을 위해 부여한 숫자들 간의 관계

        1. 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여

        2. 서열(순위)척도 : 단순히 대소 or 높고 낮음 등의 순위만 제공

        3. 등간척도 : 순위를 부여, 순위 사이의 간격이 동일 => 양적인 비교가 가능 (절대0점 존재 x)

        4. 비율척도 : 절대0점 존재. 측정값 사이의 비율 계산이 가능한 척도

  • 통계분석

    • 기술통계학

      • 모집단 전체 혹은 표본으로부터 얻는 데이터에 대한 숫자 요약이나 그래프 요약을 통하여 데이터가 가진 정보를 정리하는 이론과 방법

    • 추론통계학

      • 표본으로부터 얻은 정보를 이용하여 모집단의 모수를 추론하거나 변수들 간의 함수관계의 진위 여부를 판단하는 일련의 과정에 관한 이론과 방법

  • 확률 및 확률분포

    • 표본공간 S의 부분집합인 각 사상에 대하여 실수값을 가지는 함수 P가 세가지 성질을 만족하면 확률이라함

      1. 모든 사건의 확률값은 0과 1 사이에 있다.

      2. 전체 집합의 확률은 1이다.

      3. 서로 배반인 사건들 E1,E2 ... 의 합집합의 확률은 각 사건들의 확률의 합

        • 배반사건 : 교집합이 공집합인 사건

    • 조건부확률과 독립사건

      • 사상 B가 일어났다는 조건 아래서 사상 A가 일어날 조건부 확률 ( P( B | A ) )

  • 확률분포

    • 확률변수 : 표본공간에 발생하는 원소를 정의역, 이에 대응되는 실수 값을 치역으로 하는 함수 

      • 이산확률변수 : 변수가 취할 수 있는 값을 헤아려 열거할 수 없을 때

      • 연속확률변수 : 주어진 실수 구간 내에 속하는 어떠한 실수도 취할 수 있을 때

    • 확률분포 : 치역에 해당하는 실수값을 확률로 나타낸 것

      • 이산형확률분포 : 베르누이 확률분포 , 이항분포, 기하분포, 다항분포, 포아송 분포

      • 연속형확률분포 : 균일분포, 정규분포(카이제곱분포 , F분포) , 지수분포

    • 확률변수의 기댓값과 분산

      • 확률변수 X가 취하는 변화에 따라 확률값들은 분포를 이루게 되며 이러한 확률분포의 중심이 되는 평균이 기댓값

      • X가 이산적인 경우 : μ = E(X) = xf(x)
      • X가 연속적인 경우 : E(X) = ∫xf(x)dx
      • 표준편차 : sd(X) = √Var(X)
  • 추정과 가설검정

    • 모수의 값이 얼마인지를 알아보는 점추정

      • 가장 참값이라고 여겨지는 하나의 모수의 값을 선택하는 것 ( 모수가 특정한 값일 것 이라고 추정 )

    • 모수를 포함할 것으로 기대되는 구간을 확률적으로 구하는 구간추정

      • 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것

    • 좋은 추정량이 되기위한 조건

      1. 불편성 : 추정량의 기댓값 = 모수의 값

      2. 효율성 : 추정량의 분산의 최솟값

      3. 충족성 : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성은 효율성의 필요조건

      4. 일관성 : 표본오차가 적어야함

    • 가설검정

      • 모집단의 특성에 대한 통계적 가설모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론

        • 대립가설 : 연구자가 입증하려는 주장을 담은 가설

        • 귀무가설(=영가설) 기존에 받아들여지던 가설

      • 오류

        • 제1종 오류 : 귀무가설 H。가 옳은데도 불구하고 H。를 기각하게 되는 오류

        • 제2종 오류 :귀무가설 H。옳지 않은데도 H。를 채택하는 오류

        • 1종오류를 범할 확률의 최대 허용치를 특정한 값으로 지정 -> 2종 오류의 확률을 가장 낮게 해주는 방법

      • 배경지식

        1. 검정통계량 : 관찰된 표본으로부터 구하는 통계량 -> 가설의 진위 판단하는 수단

        2. 유의확률 : 대립가설을 지지하는 검정통계량이 나올 확률

        3. 유의수준 : 제 1종 오류의 최댓값

        4. 기각역 : 검정통계량의 분포에서 유의수준 a의 크기에 해당하는 영역 -> 검정통계량의 유의성을 판정하는 기준

    • 비모수적 검정

      • 모수적 검정 : 모집단의 분포에 대해 가정

        1. 가정된 분포의 모수에 대해 가설 설정

        2. 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시

      • 비모수적 검정 : 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시

        1. 분포의 형태에 대해 설정

        2. 관측값들의 순위나 두 관측값 사이의 부호등을 이용해 검정

          • 부호검정, 윌콕슨의 순위합검정, 부호순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수

모수적 추론 비모수적 추론 베이지안 추론
모수에 대해 추론(추정,가설검정)

모집단에 대한 분포 가정을 하지 않음

수많은 모수가 필요할 수 있음

모수를 상수가 아닌 확률변수로 봄

-> 확률분포를 가짐

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[2] 데이터 마트  (0) 2020.02.06
[1] R 기초  (0) 2020.02.06

2. 데이터 마트

데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터들을 담은 비교적 작은 규모의 데이터 웨어하우스

 

  • 재구조화 ( reshape )

    • melt( data, id.vars , na.rm = FALSE )

      • id,variable,value 형태로 재구성

      • id.vars : 식별컬럼

      • na.rm = FALSE : NA인 행을 결과에 포함시킬지 여부

    • cast() - melt() 된 데이터를 다시 여러 칼럼으로 변환

    • 통계 분석에 필요한 데이터 구조로 딱 맞아떨어지지않는 경우에 재구조화 시킬때 사용

# melt() 예시

melt(airquality, id=c("month","day"), na.rm = TRUE)

> 
    month day variable value
1		5	1	 ozone	41.0
2		5	2	 ozone	36.0
3		5	3	 ozone	12.0

# cast() 예시

cast(T,day~month~variable) # 행을 day, 열을 month로 각 변수들을 새롭게 배열
>
Ozone
	5	6	7	8	9
1	41 NA	135	39	96
2	36 NA	49	9	78
3	12 NA	32	16	73
...

cast(T,month~variable,mean,margin=c("grand_now","grand_col"))
# margin 관련 옵션으로, 행과 열에 대하 합계를 산출하는 기능

cast(T,day~month,mean,subset=variable == "ozone")
# subset 기능을 이용해 특정 변수(ozone)만을 처리

cast(T,month~variable,range)
# range 기능은 min은 "X1"이라는 변수를, max는 "X2"라는 변수를 끝에 붙여줌
  • sqldf

    • sql문처럼 사용 가능

  • plyr

    • 데이터를 분리(split) , 분할된 데이터에 특정함수를 적용(apply) , 결과를 재결합(combine) 처리하는 함수 제공

    • adply() - 행 또는 컬럼 단위로 함수를 적용

    • ddply() - variables에 나열한 컬럼에 따라 데이터를 나눈 뒤 함수를 적용

    • summarise() - 데이터의 요약 정보를 새로운 변수에 만드는 함수

    • transform() - 연산 결과를 데이터 프레임의 새로운 칼럼에 저장하는 함수

  • 데이터 테이블

    • 빠른 그룹화, 순서화, 짧은 문장 지원 측면 및 데이터 분석 속도에서 데이터 프레임 보다 연산속도 빠름

    • DT <- data.table(x=c("b","b","b","a","a"),v=rnorm(5))

    • tables() - 모든 데이터 테이블 객체의 목록을 저장한 데이터 테이블 반환

    • Saaply(x,class) - x : 벡터,리스트,DF 형식으로 각 컬럼의 데이터 타입을 구하는 함수

    • setkey() - key를 이용해 빠른 데이터 접근

  • 결측값 처리와 이상값 검색

    • 효율성문제 , 자료처리 및 분석의 복잡성 문제 , 관측된 자료와 결측된 자료간의 차이에서 기인하는 편이 를 고려 

    • 결측값의 대치법

      1. 완전히 응답한 개체 분석

        • 불완전 자료는 모두 무시하고 완전하게 관측된 자료만으로 분석

      2. 평균대치법

        • 얻어진 자료의 적절한 평균값으로 결측 값을 대치해서 불완전한 자료를 완전한 자료로 만든 후, 완전한 자료를 마치 관측 또는 실험되어 얻어진 자료라 생각하고 분석하는 방법

      3. 단순확률 대치법

        • 평균대치법에서 추정량 표준오차의 과소추정문제를 보완

        • Hot-deck2 방법, NearestNeighbour 2 방법

        • 평균대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법

      4. 다중 대치법

        • 결측치를 가진 자료 분석에 사용하기가 용이, 통계적 추론에 사용된 통계량의 효율성 및  일치성 등의 문제를 부분적으로 보완

        • 추정량 표준오차의 과소추정 , 계산의 난해성 문제가 있음

    • 결측값 처리

      • Amelia2 , Mice , mistools 패키지

      • 결측값 확인 

        • 결측값 : NA / 불가능한 값 : NaN

        • is.na() - 결측값 여부를 확인

        • Complete.cases() - 해당 행의 모든 값이 NA가 아닌 경우 TRUE / 하나라도 있다면 FALSE

          • ex) french_fries[!complete.cases(french_fries),]  => NA가 있는 값들을 반환

      • 결측값 처리 방식은 해당 레코드를 모두 삭제하는 것 그러나 많은 레코드가 결측값이 있다면 변수들 간의 관계를 이용해 imputation 한다

        • ex)  a.out <- amelia(freetrade,m=5,ts='year',cs='country') #m=imputations 데이터 셋 수
    • 이상값 검색

      • 전처리를 어떻게 할지 결정 / 부정사용방지 시스템에서 규칙을 발견하는데 사용 

        1. 이상값은 의도하지 않게 잘못된 경우 (Bad Data)

        2. 의도하지 않게 입력됐으나 분석 목적에 부합되지 않아 제거해야 하는 경우 (Bad Data)

        3. 의도되지 않은 현상이지만 분석에 포함해야 하는 경우 ( 이상값 )

        4. 의도된 이상값

      • 알고리즘 : ESD, MADM

      • 함수 : boxplot, summary 

      • summary 로 평균,중간값,Q1,Q3 값을 보면서 1차 판단 -> 시간적 여유가 있다면 주요 변수별로 plot 하여 특성 파악

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07
[1] R 기초  (0) 2020.02.06

1. R 기초

  • Vector(벡터)

    • 숫자, 문자, 논리연산자가 들어가며, 동일한 자료형을 갖는 값들의 집합

    • c() , seq() , rep()

    • ex) x <- c(1,2,3) / x <- c('a','b','c') / x <- c(TRUE , FALSE)

    • 유형

      • Numerical Type - 실수

      • Integer Type - 정수

      • Factor Type - 순서형 변수와 명목형 변수

      • Character Type - 문자열

  • 변수의 유형

    • 범주형 ( Categorical ) 변수

      • 명목형 ( Nominal )

      • 순서형 ( Ordinal )

    • 수치형 ( Numerical ) 변수

      • 이산형 ( Discrete )

      • 연속형 ( Continuous )

  • Matrix (행렬)

    • 한 가지 유형의 스칼라만 사용 가능

    • matrix(data(vector),nrow(행의 수), ncol(열의 수), byrow=FALSE (열 우선) , dimnames=NULL (행렬의 각 차원에 부여할 이름) 

    • ex) m <- matrix( c(1,2,3,4,5,6) , ncol = 2 )  

    • 기본적으로 열을 우선으로 값들을 채우는 방향으로 입력됨

  • Data Frame(데이터 프레임)

    • 각 열이 서로 다른 데이터 타입을 가질 수 있음 -> 데이터 크기가 커져도 다루기가 쉬움

    • 벡터들의 길이가 반드시 같아야 함

a1 <- c(100,200,300)
b1 <- c("a","b", "c")
c1 <- c(FALSE,FALSE,FALSE)
D <- data.frame(income = a1, car = b1, marriage = c1)
  • Array (배열)

    • 다차원 데이터

    • ex) array(1:12,dim = c(3,4))

  • List (리스트)

    • 서로 다른 데이터의 유형을 담을 수 있음

    • ex)  x<- list(name ="Leepaper" , height = 168)

    • $ 을 써서 해당하는 변수의 값을 불러올 수 있음

  • R기초 함수

    • 수열생성

      • rep(1,2) - 1번째 인수를 2번째 인수만큼 반복하는 숫자 벡터

      • seq(1,3) - 1번째 인수부터 2번째 인수까지 1씩 증가하는 숫자 벡터

        • by = n 옵션을 추가하면 n씩 증가하는 수열

        • length = m 옵션을 추가하면 전체 수열의 개수가 m개가 되도록 자동적으로 증가

    • 행렬계산

      • t() - 전치행렬을 만드는 함수

      • %*%을 이용해 두 행렬의 곱셈을 할 수 있음

      • 행렬 A에 대해 * 을 통해 스칼라 곱의 결과를 얻을 수 있음

      • solve() 함수로 역행렬을 계산

    • 기초적인 대푯값 및 분산

      • mean(c) - 평균

      • var (c) - 분산

      • sd (c) - 표준편차

    • 기초적인 변환 및 상관계수 공분

      • sum(c) - 합

      • median(c) - 중앙 값

      • log (c) - 자연로그 값

      • cov(a,c) - 공분산

      • cor(a,c) - 상관계수

      • summary(a) - 최솟값, 최댓값, 중앙값 , 평균 (사분위수)

  • R 데이터 핸들링

    • 벡터형 변수는 [ n ]를 붙여서 n번째 원소에 해당되는 값을 불러옴

    • [ -n ]은 n번째 원소를 제외한 값들을 불러옴

    • 반복문,조건문

      • for ( i in 1:9 ) { ~~~ }

      • while (조건) { ~~~~ }

      • if~else : ifelse(조건문, True일때 값 , False일때 값)

    • 사용자 정의 함수

      • function()을 이용해 함수 생성

    • 유용한 기능들

      • paste() - 입력받은 문자열들을 하나로 붙여줌

        • sep = "" 을 통해 붙이고자 하는 문자열들 사이에 삽입

      • substr() - 문자 추출

      • as.data.frame() - 데이터 프레임 형식으로 변환

      • as.list() - 리스트 형식으로 변환

      • as.matrix() - 행렬 형식으로 변환

      • as.vector() - 벡터 형식으로 변환

      • as.factor() - factor 형식으로 변환

      • as.integer() - 실수형 벡터 -> 정수형 벡터로 변환

      • as.numeric() - 논리값을 수치형을 변환

      • as.logical() - 수치형을 논리값으로 변환

      • as.Date() - 문자열을 날짜로 변환

      • as.Date(, format = "%m/%d/%Y") - 날짜를 문자열로 변환

      • format (Sys.Date()) - 현재 날짜 불러오기

  • R 그래픽 기능

    • 산점도 그래프

      • x 변수와 y변수의 값을 한눈에 살펴볼 수 있도록 평면에 을 찍어 표현

      • plot(x,y)

    • 산점도 행렬

      • 여러가지 변수에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬 

      • pairs()

    • 히스토그램과 상자그림

      • hist() - 히스토그램

      • boxplot() - 상자그림

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07
[2] 데이터 마트  (0) 2020.02.06

1. 분석 마스터 플랜 수립

분석 마스터 플랜 - 분석 대상이 되는 과제를 도출, 우선순의 평가 -> 단기적인 세부 이행계획과 중-장기 적인 로드맵 작성

  • 분석 마스터 플랜 수립 프레임 워크

    • 전략적 중요도 ,비즈니스 성과 / ROI , 실행 용이성 -> 적용 우선순위 결정

    • 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준 -> 분석 구현 로드맵 수립

    • ISP(정보전략계획) 방법론을 활용

      • 전략 및 실행 계획을 수립하는 전사적인 종합정보 추진계획

  • 수행 과제 도출 및 우선순위 평가

    • 우선순위 평가는 정의된 데이터 과제에 대한 실행 순서를 정하는 것

    • 분석 과제 도출 -> 우선순위 평가 -> 우선순위 정련

  • ROI 관점에서 보는 빅데이터 4V

    • ROI 관점 : 누적된 총 순효과를 총 비용을 나누어 계산한 비율 

    • Volume , Variety , Velocity => 투자비용 요소 (Investment)

    • Volume , Variety , Velocity + 비정형 데이터 = Value ==> 비즈니스 효과(Return)

  • ROI 관점에서의 분석 과제 우선순위 평가 기준

    • 시급성 : 전략적 중요도가 핵심

    • 난이도 : 비용, 범위측면을 고려

  • 포트폴리오 사분면 분석을 통한 과제 우선순위를 선정하는 기법

출저 : DBGuid.net

  • 분석 과제 우선순위 선정 매트릭스
    • 1사분면 - 전략적 중요도가 높아 경영에 미치는 영향이 크므로 현재 시급하게 추진이 필요 (난이도가 높아 바로 적용 불가능

    • 2사분면 - 중장기적 관점에서는 반드시 추진되어야 함

    • 3사분면 - 전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있음 (난이도가 낮아 바로 적용 가능)

    • 4사분면 - 전략적 중요가 높지 않아 중장기적 관점에서 과제 추진

    • 시급성 - 3사분면 -> 4사분면 -> 2사분면

    • 난이도 - 3사분면 -> 1사분면 -> 2사분면

  • 분석 과제 우선순위 조정 Case
    1. 시급성과 난이도가 높은 1사분면경영진 또는 실무담당자의 의사결정에 따라 적용
    2. 기술적 요소에 따라 적용 우선순위 조정
    3. 분석 범위에 따라 적용 우선순위 조정
  • 이행계획 수립
    • 로드맵 수립
    • 세부이행계획 수립

폭포수 모델 - 각 단계별로 철저한 검토와 승인

  • 계획 -> 분석 -> 설계 -> 구현 -> 시험 -> 운용 -> 유지보수

나선형 모델 - 여러 번의 개발 과정을 거쳐 점진적으로 프로젝트를 완성

  • 계획 -> 우험분석 -> 개발 -> 고객평가
  • 대규모 시스템 소프트웨어 개발에 적합

2. 분석 거버넌스 체계 수립

  1. 거버넌스 체계 개요

    • 거버넌스 - 기업, 비영리 기관 등에서 규칙, 규범 및 행동이 구조화 되고, 유지되고, 규제되고 책임을 지는 방식 및 프로세스를 지칭

    • 분석 거버넌스 - 기업에서 데이터가 어떻게 관리되고, 유지되고, 규제되는지에 대한 내부적인 관리 방식이나 프로세스

    • 데이터 거버넌스 - 데이터가 적시에 필요한 사람에게 제공되도록 체계를 확립하는 것

    • 분석 거버넌스 체계 구성 요소

      • Process - 과제 기획 / 운영 프로세스

      • System - IT / 프로그램

      • Data - 데이터 거버넌스

      • Human Resource - 분석 교육

      • Organization - 분석 기획 / 관리 및 추진 조작

  2. 데이터 분석 성숙도 모델 및 수준 진단

    • 분석 준비도 - 각 기업이 수행하는 현재의 분석 수준을 명확히 이해, 수준 진단 결과를 토대로 미래의 목표 수준을 정의

    • 데이터 분석 준비도 프레임워크

      • 분석 업무 파악 - 발생한 사실 분석 업무, 예측 분석 업무, 시뮬레이션 분석 업무, 최적화 분석 업무, 분석 업무 정기적 개선

      • 인력 및 조직 - 분석전문가 직무 존재, 전문가 교육 훈련 프로그램, 관리자의 기본 분석 능력, 전사 분석 업무 총괄 조직 존재 , 경영진 분석 업무 이해 능력

      • 분석 기법 - 업무별 적합한 분석 기법 사용 , 분석 업무 도입 방법론 , 분석 기법 라이브러리 , 분석 기법 효과성 평가, 분석 기법 정기적 개선

      • 분석 데이터 - 분석 업무를 위한 데이터 충분성 및 신뢰성 , 적시성 , 비구조적 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리

      • 분석 문화 - 사실에 근거한 의사결정, 관리자의 데이터 중시, 회의 등에서 데이터 활용, 경영진의 직관보다 데이터의 활용,데이터 공유 및 협업 문화

      • 분석 인프라 - 운영 시스템 데이터 통합 , EAI, ETL 등 데이터 유통체계 , 분석 전용 서버 및 스토리지, 빅데이터 분석 환경 , 비쥬얼 분석 환경

  3. 분석 성숙도 모델

    • CMMI 모델을 기반으로 조직의 성숙도를 평가

    • 도입 단계

      • 설명 : 환경과 시스템을 구축

      • 비즈니스 부문 : 실적분석 및 통계, 정기보고 수행, 운영 데이터 기반

      • 조직 역량 부문 : 일부 부서에서 수행 , 담당자 역량에 의존

      • IT 부문 : 데이터 웨어하우스 , 데이터 마트, ETL/EAI , OLAP

    • 활용 단계

      •  설명 : 분석 결과를 실제 업무에 적용

      • 비즈니스 부문 : 미래결과 예측 , 시뮬레이션 , 운영데이터 기반

      • 조직 역량 부문 : 전문 담당부서에서 수행, 분석 긱법 도입, 관리자가 분석 수행

      • IT 부문 : 실시간 대시보드 , 통계분석 환경

    • 확산 단계

      • 설명 : 전사 차원에서 분석을 관리하고 공유

      • 비즈니스 부문 : 전사 성과 실시간 분석 , 프로세스 혁신 3.0 , 분석규칙 관리 , 이벤트 관리

      • 조직 역량 부문 : 전사 모든 부서 수행 , 분석 COE 조직 운영 , 데이터 사이언티스트 확보

      • IT 부문 : 빅데이터 관리 환경 , 시뮬레이션 - 최적화 , 비주얼 분석 , 분석 전용 서버

    • 최적화 단계

      • 설명 : 분석을 진화시켜서 혁신 및 성과 향상에 기여

      • 비즈니스 부문 : 외부환경 분석 활용 , 최적화 업무 적용 , 실시간 분석 , 비즈니스 모델 진화

      • 조직 역량 부문 : 데이터 사이언스 그룹 , 경영진 분석 활용 , 전략 연계

      • IT 부문 : 분석 협업 환경 , 분석 SandBox , 프로세스 내재화 , 빅데이터 분석

    • 샌드박스 - 외부 접근 및 영향을 차단하여 제한된 영역 내에서만 프로그램을 동작

    • CoE - 조직 내 새로운 역량을 만들고 확산하기 위한 전문가들의 조합으로 구성된 조직

  4. 분석 수준 진단 결과

    • 정착형 - 준비도는 낮음. 조직, 인력 ,분석 업무 , 분석 기법 등 기업 내부에서 제한적으로 사용

    • 확산형 - 기업에 필요한 6가지 분석 구성 요소를 갖추고 있음

    • 준비형 - 기업에 필요한 데이터,인력,조직,분석 업무, 분석 기법 등이 적용X ->사전 준비가 필요

    • 도입형 - 분석 업무 , 기법등은 부족. 적용 조직 등 준비도가 높아서 바로 도입 가능

    • 성숙도

      • 정착형 / 확산형 - 높음

      • 준비형 / 도입형 - 낮음

    • 준비도

      • 확산형 / 도입형 - 높음

      • 정착형 / 준비형 - 낮음

  5. 분석 지원 인프라 방안 수립

    • 플랫폼 - 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템

  6. 데이터 거버넌스 체계 수립

    • 데이터 거버넌스 - 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축

    • 마스터 데이터 - 자주 변하지 않고 자료 처리 운용에 기본자료로 제공되는 자료의 집합

    • 데이터 사전 - 데이터에 관한 정보를 수집, 보관, 제공하기 위한 장치

      • 자료의 이름, 표현방식, 자료의 의미와 사용 방식 , 다른 자료와의 관계를 저장

    • 데이터 거버넌스 구성요소

      • 원칙 : 유지 관리 하기 위한 지침과 가이드 및 보안, 품질 기준 ,변경관리

      • 조직 : 데이터를 관리할 조직의 역할과 책임 및 데이터 관리자 , 데이터 아키텍트

      • 프로세스 : 데이터 관리를 위한 활동과 체계 및 작업 절차 , 모니터링 활동

    • 데이터 거버넌스 체계요소

      • 데이터 표준화 - 데이터 표준용어 설명, 명명 규칙, 메타 데이터 구축 , 데이터 사전 구축

      • 데이터 관리 체계 - 메타데이터와 데이터 사전의 관리 원칙을 수립

      • 데이터 저장서 관리 - 전사 차원의 저장소를 구성

      • 표준화 활동 - 표준 준수 여부를 주기적으로 점검하고 모니터링 실시

  7. 데이터 조직 및 인력 방안 수립

    • 데이터를 효과적으로 분석 활용하기 위해 기획 및 운영을 관리할 수 있는 전문 분석조직의 필요성이 제기

    • 분석조직 구조

      • 집중구조

        • 전사 분석 업무를 별도의 분석 전담 조직에서 담당

        • 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능

        • 현업 업무부서의 분석 업무와 이중화/이원화 가능성 높음

      • 기능구조

        • 일반적인 분석 수행 구조

        • 별도 분석조직이 없고 해당 업무부서에서 분석 수행

        • 전사적 핵심분석이 어려우며, 부셔 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음

      • 분산구조

        • 분석조직 인력들을 현업부서로 직접 배치하여 분석 업무 수행

        • 전사차원의 우선순위 수행

        • 분석 결과에 따른 신속한 Action 가능

        • 베스트프랙티스 공유 가능

        • 부서 분석 업무와 역할 분담 명확히 해야함

  8. 분석 과제 관리 프로세스 수립

    • 과제발굴 -> 과제수행 

      • 과제 발굴 : 분석 아이디어 발굴 -> 분석 과제 풀(Pool) 관리 -> 분석 프로젝트 확정

      • 과제 수행 : 분석을 수행할 팀 구성 -> 분석 과제 모니터링 -> 과제 결과를 공유 및 개선

  9. 분석 교육 및 변화 관리

    • 분석에 관련된 교육 및 마인드 육성을 위한 적극적인 변화관리 필요

3. 분석 과제 발굴

상향식접근방식, 하향식 접근방식이 있다. -> 중요한 의사결정 시 혼용해서 사용함

 

하향식 접근 - 전체를 먼저 정하고 그 밑에 큰 기능 들을 정한 뒤 그것들을 계속해서 세분화 (분석대상을 알고 있을 때)

상향식 접근 - 각각의 기능이나 기술을 먼저 만든 뒤에 그것들을 모아 전체를 완성

  1. 하향식 접근 방식

    1. 현황 분석 또는 인식된 문제점, 전략으로부터 기회나 문제를 탐색(Problem Discovery)

      • 비즈니스 모델 기반 문제 탐색

        • 업무,제품,고객 단위로 문제를 발굴

        • 규제와 감자 영역과 자원 인프라 영역에 대한 기회를 추가로 도출

      • 비즈니스 모델 - "어떻게 수익을 창출할 것인가"에 대한 검증

        • 업무, 제품, 고객 --> 규제와 감사, 지원 인프라

      • 분석 기회 발굴의 범위 확장

        1. 거시적 관심의 요인

          • STEEP - 사회(Social) , 기술(Technological) , 경제 (Economic) , 환경 (Environmental) , 정치(Political)

        2. 경쟁자 확대 관점

          • 경쟁사 영역 , 대체제 영역, 신규 진입자 영역 등으로 관점 확대

        3. 시장의 니즈 탐색

          • 고객 영역, 채널 영역 , 영향자들 영역에 대한 관점을 바탕

        4. 역량의 재해석 관점

          • 내부 역량 영역 , 네트워크 영역을 포함

      • 외부 참조 모델 기반 문제 탐색

        • Quick & Easy 방식으로 아이디어 획득 -> 브레인스토밍을 통해 빠르게 도출

      • 분석 유즈 케이스

        • 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시

    2. 문제 정의 (Problem Definition)

      • 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

      • 앞서 탐색한 문제탐색에 대해 필요한 데이터 및 기법을 정의

    3. 해결 방안 탐색(Solution Search)

      • 소요되는 예산 및 활용 가능한 도구가 다르기 때문에 다각도로 고려할 필요가 있음

    4. 타당성 검토(Feasibility Study)

      • 경제적 타당도, 데이터 및 기술적 타당도를 검토

  2. 상향식 접근방식

    • 문제정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안 탐색 , 지속적으로 개선하는 방식(비지도 학습)

    • 인과관계 -> 상관관계 분석으로의 이동

    • 지도 학습

      • 훈련용 데이터에 알고리즘을 적용하여 함수를 추론, 추론된 함수를 통해 컴퓨터가 알아서 답을 찾도록 만듬

      • 분류 , 예측

    • 비지도 학습

      • 분류는 하지만 훈련용 데이터를 통해 함수를 추론할 수 없음, 데이터가 어떻게 구성되어 있는지 밝히는데 사용

      • 군집화(Clustering)

  3. 분석 과제 정의

    • 분석 과제 정의서 - 프로젝트 방향을 설정, 성공 여부를 판별할 수 있는 주요한 자료를 명확하게 작성

4. 분석 프로젝트 관리 방안

분석 과제의 주요 5가지 특성 관리 영역 (D D S A A)

Data Size 분석하고자 하는 데이터 양을 고려한 관리 방안 수립이 필요
Data Complexity

데이터에 잘 적용될 수 있는 분석 모델의 선정을 고려

Speed 배치 형태인지 실시간 분석의 형태인지를 고려
Analytic Complexity 분석 모델이 복잡할수록 정확도는 증가, 해석이 어려워짐 -> 기준점을 사전에 정의
Accuracy & Precision

Accuracy - 모델과 실제값 사이의 차이가 적다는 정확도

Precision - 모델을 지속적으로 반복했을 때의 편차의 수준

  • 분석 프로젝트의 특성

    • 도출된 결과의 재해석을 통한 지속적인 반복 빛 정교화가 수행되는 경우가 대부분 

    • Agile 모델

      • 예측하며 개발하지 않고, 일정한 주기를 가지고 계속 프로토타입을 만들어내며 필요할 때마다 요구사항을 더하고 수정

  • 분석 프로젝트 관리 방안 (통 이 범 지 시 원 리 품 조 의)

    • 통합

    • 이해관계자

    • 범위

    • 자원

    • 시간

    • 원가

    • 리스크

    • 품질

    • 조달

    • 의사소통

'ADSP > 2강) 데이터 분석기획' 카테고리의 다른 글

[5] 분석 마스터 플랜  (0) 2020.02.05
[1][2] 분석 기획 방향성 도출  (0) 2020.02.04

1. 분석 기획 방향성 도출

  • 분석 기획의 특징

    • 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획 하는 작업

  • 데이터 사이언스 역량

데이터 사이언스 역량

  • 분석 주제 유형
    1. Optimazation(최적화) - 분석 대상 및 분석 방법을 이해

    2. Solution(솔루션) - 분석 과제는 수행, 분석 방법을 알지 못할 때 수행

    3. Insight(통찰) - 분석 대상이 불분명, 분석 방법을 알고 있을 때 도출

    4. Discovery(발견) - 분석 대상, 방법 모두 모를 때 분석 대상 자체를 새롭게 도출

  분석 대상
분석 방법   Known Unknown
Known 최적화(Optimazation) 통찰(Insight)
Unknown 솔루션(Solution) 발견(Discovery)
  • 목표 시점별 분석 기획 방안

    • 과제 중심적인 접근 방식

      • 1차목표 - Speed & Test

      • 과제의 유형 - Quick - Win (과제를 단기로 달성, 추진)

      • 접근 방식 - Problem Solving

    • 장기적인 마스터플랜 방식

      • 1차목표 - Accuracy & Deploy

      • 과제의 유형 - Long term view

      • 접근 방식 - Problem Definition

  • 분석 기획 시 고려 사항

    1. 가용한 데이터 - 분석을 위한 데이터 확보가 필수적임

    2. 적절한 유스케이스 - 유사 분석 시나리오 및 솔루션 있다면 최대한 활용

    3. 장애 요소들에 대한 사전 계획 수립 필요 - 충분하고 계속적인 교육 및 활용 방안 등의 변화관리가 고려

2. 분석 방법론

일반적으로 방법론은 계층적 프로세스 모델의 형태로 구성

  • KDD 분석 방법론

    • 데이터 마이닝 프로세스

    • 분석 절차

      1. 분석대상 이해와 프로젝트 목표 정확하게 설정

      2. 데이터셋 선택(Selection)

      3. 데이터 전처리(Preprocessing) - 잡음(Noise) , 이상값(Outlier) , 결측치 (Missing value) 식별, 필요시 제거

      4. 데이터 변환 (Transformation) - 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터 셋 변경

      5. 데이터 마이닝 (Data Mining) - 분석 목적에 맞는 기법 ,알고리즘 선택 > 패턴발견 및 데이터 분류 또는 예측

      6. 마이닝 결과 평가(Interpretation/Evaluation) - 분석 결과에 대한 해석과 평가 그리고 활용

    • Selection -> Preprocessing -> Transformation -> Data Mining -> Interpretation / Evaluation

  • CRISP-DM 분석 방법론

    • 계층적 프로세스 모델 ( 4개 레벨로 구성 , 단계 간 피드백 )

    • 분석 절차

      1. 업무 이해 - 도메인 지식을 데이터 분석을 위한 문제정의로 변경

      2. 데이터 이해 - 데이터 수집,데이터 속성을 이해, 데이터 품질 문제점 식별, 숨겨져 있는 인사이트 발견

        • 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

      3. 데이터 준비 - 분석 기법에 적합한 데이터셋을 편성

        • 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅

      4. 모델링 - 모델링 기법과 알고리즘 선택, 모델링 과정에 사용되는 파라미터를 최적화, 모델 과적합 해결 

        • 모델 과적합 - 전체 모집단은 가지고 있지않고 훈련데이터 집합만 가지고 있는 특징까지 기계학습 해버려서 불필요한 것 까지 배우는 것

      5. 평가 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

      6. 전개 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

    • KDD와 CRISP-DM 비교

      KDD

      CRSIP - DM

      분석 대상 비즈니스 이해

      업무 이해

      데이터셋 선택 

      데이터 이해

      데이터 전처리

      데이터 변환

      데이터 준비

      데이터 마이닝

      모델링

      데이터 마이닝 결과 평가

      평가

      데이터 마이닝 활용

      전개

    • 빅데이터 분석 방법론

      1. 분석 기획 - 문제점 인식 , 분석 계획 및 프로젝트 수행계획 수립

        • SOW ( Statement of Work )를 작성

        • 프로젝트 목표 및 KPI ( 핵심성과지표 ) ,목표수준 구체화

        • WBS (전체 업무를 분류하여 구성요소로 만든 후 각 요소를 평가하고 일정별로 계획하며 그것을 완수 할 수 있는 사람에게 할당해주는 역할) 작성

      2. 데이터 준비 - 데이터 분석에 필요한 원천 데이터를 정의하고 준비 

        1. 필요 데이터 정의

          • ERD(데이터들의 관계를 표현한 도식화된 그림), 메타데이터 정의서 등, 데이터 정의서를 작성

        2. 데이터 스토어 설계 

          • 정형 데이터 스토어 설계 - 일반적으로 RDBMS를 사용

          • 비정형 데이터 스토어 설계 - NoSQL, 하둡을 사용 

        3. 데이터 수집 및 정합성 점검

          • API , ETL , 크롤링 등을 이용해 데이터를 수집, 스토어에 저장

            • ETL - 데이터 추출, 변환 , 적재의 약자. BI 구현을 위한 기본 구성 요소 가운데 하나

            • API - 응용 프로그램에서 사용 할 수 있도록  운영체제나 프로그래밍 언어가 기능을 제어할 수 있게 만든 인터페이스

            • 크롤링 - 웹페이지를 그대로 가져와 데이터를 추출하는 것

      3. 데이터 분석 - 데이터셋 편성, 분석 기법과 알고리즘을 이용

        1. 분석용 데이터 준비

        2. 텍스트 분석

          • 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축

        3. 탐색적 분석(EDA)

          • 다양한 관점별로 기초 통계량을 산출

          • 데이터 특성 및 데이터 통계적 특성을 이해

        4. 모델링 - 데이터 분류, 예측, 군집 등의 기능을 수행하는 모델을 만듦

          1. 데이터 분할 - 훈련용과 테스트용으로 분할 ( 과적합 방지 )

          2. 데이터 모델링 - 모델을 만들어 가동 중인 운영 시스템에 적용

          3. 모델 적용 및 운영 방안 - 모델에 대한 상세한 알고리즘 작성

        5. 모델 평가 및 검증

      4. 시스템 구현

        • 설계 및 구현

      5. 평가 및 전개

        1. 모델 발전 계획 수립 - 모델의 계속성을 확보

        2. 프로젝트 평가 보고

1. 빅데이터 분석과 전략 인사이트

  • 빅데이터 열풍과 회의론

    • 기존의 분석 프로젝트를 포장해 빅데이터 성공사례로 내놓음

  • 싸이월드와 페이스북

    • 싸이월드 - 직관에 근거해 의사결정

    • 페이스북 - 데이터 분석에 기초해 전략적 통찰을얻고 효과적인 의사결정 -> 구체적인 성과

  • 데이터의 양만 많은게 핵심이 아니다

    • 데이터의 양이 아니라 유형의 다양성(음석,텍스트,이미지,비디오)이 핵심

  • 전략적 통찰이 없는 분석의 함정

    • 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는 것이 어려움

  • 일차적인 분석 vs 전략 도출 위한 가칠 기반 분석

    • 인구통계학적 변화, 경제사회 트렌드, 고객 니즈의 변화 등을 고려, 다른 대변화 예측

    • 일차적인 분석 애플리케이션 사례

      1. 금융서비스 : 신용점수 산정, 사기 탐지, 고객 수익성 분석

      2. 소매업 : 재고 보충, 수요예측

      3. 제조업 : 맞춤형 상품 개발, 신상품 개발

      4. 에너지 : 트레이딩 , 공급 , 수요예측

      5. 온라인 : 웹 매트릭스, 사이트 설계, 고객 추천

2. 전략 인사이트 도출을 위한 필요 역량

  • 데이터 사이언스 의미와 역할

    • 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상

    • 통계학과 다른 점은 데이터 사이언스는 총제적 접근법을 사용

    • 전략적 통찰을 추구 , 비즈니스 핵심 이슈에 답, 사업의 성과를 견인

  • 데이터 사이언스의 구성요소

    1. Data Management(데이터 관리)

    2. Analytics(데이터 분석)

    3. 비즈니스 분석

  • 데이터 사이언티스트의 역량

    1. 강력한 호기심

    2. 소프트스킬

      • 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)

      • 설득력 있는 전달 (스토리텔링, Visualization(시각화))

      • 협력 (Communication (소통))

    3. 하드스킬 - 이론적 지식, 분석 기술

  • Gartner(가트너)가 본 데이터 사이언티스트의 역량

    1. 데이터관리

    2. 분석모델링

    3. 비즈니스 분석

    4. 소프트스킬

  • 전략적 통찰력과 인문학의 부활

    1. 단순 세계화 -> 복잡한 세계화로의 변화

    2. 비즈니스 중심이 제품생산 -> 서비스 로 이동

    3. 경제와 산업의 논리가 생산에서 시장 창조로 바뀜

  • 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할

 

과거

현재

미래

infomation (정보)

리포팅

경고

추출

insight (통찰력)

모델링

권고

예측,최적화

 

  • 데이터 분석 모델링에서 인문학적 통찰력의 적용 사례

    • 인간을 바라보는 유형별 세 가지 관점

      1. 인간을 타고난 성향의 관점에서 바라보는 것

      2. 인간을 행동적 관점에서 바라보는 것

      3. 인간을 상황적 관점에서 바라보는 것

3. 빅데이터 그리고 데이터 사이언스의 미래

  • 빅데이터 회의론을 넘어: 가치 패러다임의 변화
    •  Digitalization -> Connection -> Agenct

      1. '디지털화' - 아날로그세상에서 디지털화, 가치창출의 원천

      2. '연결' - 새로운 시대에서 디지털화된 정보와 대상들은 서로 연결되기 시작 ( 사물인터넷 (IOT) )

      3. '에이전시(agency)' - '복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리해주는가'의 이슈

+ Recent posts