1. R 기초

  • Vector(벡터)

    • 숫자, 문자, 논리연산자가 들어가며, 동일한 자료형을 갖는 값들의 집합

    • c() , seq() , rep()

    • ex) x <- c(1,2,3) / x <- c('a','b','c') / x <- c(TRUE , FALSE)

    • 유형

      • Numerical Type - 실수

      • Integer Type - 정수

      • Factor Type - 순서형 변수와 명목형 변수

      • Character Type - 문자열

  • 변수의 유형

    • 범주형 ( Categorical ) 변수

      • 명목형 ( Nominal )

      • 순서형 ( Ordinal )

    • 수치형 ( Numerical ) 변수

      • 이산형 ( Discrete )

      • 연속형 ( Continuous )

  • Matrix (행렬)

    • 한 가지 유형의 스칼라만 사용 가능

    • matrix(data(vector),nrow(행의 수), ncol(열의 수), byrow=FALSE (열 우선) , dimnames=NULL (행렬의 각 차원에 부여할 이름) 

    • ex) m <- matrix( c(1,2,3,4,5,6) , ncol = 2 )  

    • 기본적으로 열을 우선으로 값들을 채우는 방향으로 입력됨

  • Data Frame(데이터 프레임)

    • 각 열이 서로 다른 데이터 타입을 가질 수 있음 -> 데이터 크기가 커져도 다루기가 쉬움

    • 벡터들의 길이가 반드시 같아야 함

a1 <- c(100,200,300)
b1 <- c("a","b", "c")
c1 <- c(FALSE,FALSE,FALSE)
D <- data.frame(income = a1, car = b1, marriage = c1)
  • Array (배열)

    • 다차원 데이터

    • ex) array(1:12,dim = c(3,4))

  • List (리스트)

    • 서로 다른 데이터의 유형을 담을 수 있음

    • ex)  x<- list(name ="Leepaper" , height = 168)

    • $ 을 써서 해당하는 변수의 값을 불러올 수 있음

  • R기초 함수

    • 수열생성

      • rep(1,2) - 1번째 인수를 2번째 인수만큼 반복하는 숫자 벡터

      • seq(1,3) - 1번째 인수부터 2번째 인수까지 1씩 증가하는 숫자 벡터

        • by = n 옵션을 추가하면 n씩 증가하는 수열

        • length = m 옵션을 추가하면 전체 수열의 개수가 m개가 되도록 자동적으로 증가

    • 행렬계산

      • t() - 전치행렬을 만드는 함수

      • %*%을 이용해 두 행렬의 곱셈을 할 수 있음

      • 행렬 A에 대해 * 을 통해 스칼라 곱의 결과를 얻을 수 있음

      • solve() 함수로 역행렬을 계산

    • 기초적인 대푯값 및 분산

      • mean(c) - 평균

      • var (c) - 분산

      • sd (c) - 표준편차

    • 기초적인 변환 및 상관계수 공분

      • sum(c) - 합

      • median(c) - 중앙 값

      • log (c) - 자연로그 값

      • cov(a,c) - 공분산

      • cor(a,c) - 상관계수

      • summary(a) - 최솟값, 최댓값, 중앙값 , 평균 (사분위수)

  • R 데이터 핸들링

    • 벡터형 변수는 [ n ]를 붙여서 n번째 원소에 해당되는 값을 불러옴

    • [ -n ]은 n번째 원소를 제외한 값들을 불러옴

    • 반복문,조건문

      • for ( i in 1:9 ) { ~~~ }

      • while (조건) { ~~~~ }

      • if~else : ifelse(조건문, True일때 값 , False일때 값)

    • 사용자 정의 함수

      • function()을 이용해 함수 생성

    • 유용한 기능들

      • paste() - 입력받은 문자열들을 하나로 붙여줌

        • sep = "" 을 통해 붙이고자 하는 문자열들 사이에 삽입

      • substr() - 문자 추출

      • as.data.frame() - 데이터 프레임 형식으로 변환

      • as.list() - 리스트 형식으로 변환

      • as.matrix() - 행렬 형식으로 변환

      • as.vector() - 벡터 형식으로 변환

      • as.factor() - factor 형식으로 변환

      • as.integer() - 실수형 벡터 -> 정수형 벡터로 변환

      • as.numeric() - 논리값을 수치형을 변환

      • as.logical() - 수치형을 논리값으로 변환

      • as.Date() - 문자열을 날짜로 변환

      • as.Date(, format = "%m/%d/%Y") - 날짜를 문자열로 변환

      • format (Sys.Date()) - 현재 날짜 불러오기

  • R 그래픽 기능

    • 산점도 그래프

      • x 변수와 y변수의 값을 한눈에 살펴볼 수 있도록 평면에 을 찍어 표현

      • plot(x,y)

    • 산점도 행렬

      • 여러가지 변수에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬 

      • pairs()

    • 히스토그램과 상자그림

      • hist() - 히스토그램

      • boxplot() - 상자그림

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07
[2] 데이터 마트  (0) 2020.02.06

1. 빅데이터 분석과 전략 인사이트

  • 빅데이터 열풍과 회의론

    • 기존의 분석 프로젝트를 포장해 빅데이터 성공사례로 내놓음

  • 싸이월드와 페이스북

    • 싸이월드 - 직관에 근거해 의사결정

    • 페이스북 - 데이터 분석에 기초해 전략적 통찰을얻고 효과적인 의사결정 -> 구체적인 성과

  • 데이터의 양만 많은게 핵심이 아니다

    • 데이터의 양이 아니라 유형의 다양성(음석,텍스트,이미지,비디오)이 핵심

  • 전략적 통찰이 없는 분석의 함정

    • 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는 것이 어려움

  • 일차적인 분석 vs 전략 도출 위한 가칠 기반 분석

    • 인구통계학적 변화, 경제사회 트렌드, 고객 니즈의 변화 등을 고려, 다른 대변화 예측

    • 일차적인 분석 애플리케이션 사례

      1. 금융서비스 : 신용점수 산정, 사기 탐지, 고객 수익성 분석

      2. 소매업 : 재고 보충, 수요예측

      3. 제조업 : 맞춤형 상품 개발, 신상품 개발

      4. 에너지 : 트레이딩 , 공급 , 수요예측

      5. 온라인 : 웹 매트릭스, 사이트 설계, 고객 추천

2. 전략 인사이트 도출을 위한 필요 역량

  • 데이터 사이언스 의미와 역할

    • 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상

    • 통계학과 다른 점은 데이터 사이언스는 총제적 접근법을 사용

    • 전략적 통찰을 추구 , 비즈니스 핵심 이슈에 답, 사업의 성과를 견인

  • 데이터 사이언스의 구성요소

    1. Data Management(데이터 관리)

    2. Analytics(데이터 분석)

    3. 비즈니스 분석

  • 데이터 사이언티스트의 역량

    1. 강력한 호기심

    2. 소프트스킬

      • 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)

      • 설득력 있는 전달 (스토리텔링, Visualization(시각화))

      • 협력 (Communication (소통))

    3. 하드스킬 - 이론적 지식, 분석 기술

  • Gartner(가트너)가 본 데이터 사이언티스트의 역량

    1. 데이터관리

    2. 분석모델링

    3. 비즈니스 분석

    4. 소프트스킬

  • 전략적 통찰력과 인문학의 부활

    1. 단순 세계화 -> 복잡한 세계화로의 변화

    2. 비즈니스 중심이 제품생산 -> 서비스 로 이동

    3. 경제와 산업의 논리가 생산에서 시장 창조로 바뀜

  • 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할

 

과거

현재

미래

infomation (정보)

리포팅

경고

추출

insight (통찰력)

모델링

권고

예측,최적화

 

  • 데이터 분석 모델링에서 인문학적 통찰력의 적용 사례

    • 인간을 바라보는 유형별 세 가지 관점

      1. 인간을 타고난 성향의 관점에서 바라보는 것

      2. 인간을 행동적 관점에서 바라보는 것

      3. 인간을 상황적 관점에서 바라보는 것

3. 빅데이터 그리고 데이터 사이언스의 미래

  • 빅데이터 회의론을 넘어: 가치 패러다임의 변화
    •  Digitalization -> Connection -> Agenct

      1. '디지털화' - 아날로그세상에서 디지털화, 가치창출의 원천

      2. '연결' - 새로운 시대에서 디지털화된 정보와 대상들은 서로 연결되기 시작 ( 사물인터넷 (IOT) )

      3. '에이전시(agency)' - '복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리해주는가'의 이슈

 1. 빅데이터의 이해

  • 데이터 크기 관점

    • 일반적인 DB 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

  • 데이터 분석 관점

    • 대규모 데이터를 저렴한 비용으로 가치를 추출, 초고속 수집, 발굴 ,분석을 지원하도록 고안된 차세대 기술 및 아키텍처

  • 데이터 가치 관점

    • 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일

  • 가트너 그룹 더 그래니가 언급한 빅데이터의 정의

    • Volume - 생성되는 모든 데이터를 수집

    • Variety - 정형화된 데이터를 넘어 텍스트,오디오,비디오 등 모든 유형의 데이터를 분석대상으로 함

    • Velocity - 사용자가 원하는 시간내에 분석 결과를 제공하는 것 / 데이터의 업데이트 되는 속도가 매우 빨라지는 것

  • 데이터 단위

    • 1TB - 1024 GB

    • 1PB(페타바이트) - 1024 TB

    • 1EB(엑사바이트) - 1024 PB

    • 1ZB(제타바이트) - 1024 EB

2. 빅데이터 기능

  • 차세대 산업혁명에서 해낼 것으로 기대됨 - 제조업뿐만아니라 서비스 분야 생산성 ↑

  • 경제성장에 필요한 '정보'를 제공 - 산업 전반의 생산성을 한 단계 향상

  • 데이터가 산업 전반에 영향을 미칠 것

  • '공동 활용의 목적으로 구축된 유무형의 구조물' - 플랫폼

3. 빅데이터가 만들어낸 변화

  • 사전처리 -> 사후처리 : 가능한 한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보를 찾아냄

  • 표본조사 -> 전수조사 : 표본조사가 주지 못하는 패턴이나 정보를 제공

  • 질 << : 데이터 수가 증가함에 따라 사소한 몇개의 오류 데이터가 영항을 주지 않음

  • 인과관계 -> 상관관계 : 인과관계 모델은 비용이 매우 비쌈, 비즈니스 상황에서는 상관관계만으로 충분함

2. 빅데이터의 가치와 영향

1. 빅데이터 가치

  • 빅데이터의 가치 산정이 어려운 이유

    1. 데이터의 활용 방식 : 언제 어디서 누가 활용할지 알 수 없음

    2. 새로운 가치 창출 : 기존에 없던 가치를 창출 --> 측정하기 어려움

    3. 분석 기술의 발달 : 가치없는 데이터도 거대한 가치를 만들어 내는 재료가 될 가능성이 있음

2. 빅데이터의 영향

  • 빅데이터 영향

    1. 기업 : 혁신, 경쟁력 제고, 생산성 향상

    2. 정부 : 환경탐색, 상황분석, 미래대응

    3. 개인 : 목적에 따라 활용

  • 빅데이터가 가치를 만들어내는 방식

    1. 투명성 제고로 연구개발 및 관리 효율성 제고

    2. 시뮬레이션을 통한 수요포착 및 주요 변수 탐색으로 경쟁력 강화

    3. 고객 세분화 및 맞춤 서비스 제공

    4. 알고리즘 활용한 의사결정 보조 , 대체

    5. 비즈니스 모델,제품,서비스의 혁신

3. 비즈니스 모델

  • 빅데이터 활용 사례
    1. 구글 검색엔진, 월마트의 구매패턴 분석, IBM 왓슨 의료 분야에 활용
    2. 정부의 실시간 교통정보 활용 ( CCTV )
    3. 정치인의 사회관계망분석을 통한 유세, 가수의 팬 음악청취 기록 분석 활용
    4. 아마존의 킨들에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공
  • 빅데이터 활용 테크닉
    1. 연관 규칙 학습 : 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
    2. 유형분석 : 사용자가 어떤 특성을 가진 집단에 속하는가 와 같은 문제를 해결하고자 할때 사용
    3. 유전 알고리즘 : 최적화의 메커니즘을 찾아가는 방법
    4. 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 "예측" 하는 일에 초점
    5. 회귀분석 : "구매자의 나이가 구매차량의 타입에 어떤영향을 미치는가?" 와 같은 문제를 답할 때 사용
    6. 감정분석 : "새로운 환불 정책에 대한 고객의 평가는 어떤가?" 를 알고 싶을 때 활용
    7. 소셜 네트워크 분석(= 사회관계망분석 SNA) : 영향력 있는 사람을 찾아낼 수 있으면, 고객들 간 소셜 관계 파악

4. 위기 요인과 통제 방안

  • 사생활 침해 - 특정 데이터가 본래 목적 외에 가공 처리돼 다른 목적으로 활용될 가능성이 증가
    1. 익명화
    2. 동의에서 책임으로 변경 - 사용자에게 책임을 지움
  • 책임 원칙의 훼손 - 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성 증가
    1. 기존 책임 원칙을 강화
  • 데이터의 오용 - 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있음
    1. 데이터 알고리즘에 대한 접근권 허용
    2. 객관적 인증방안을 도입하는 필요성을 제기

5. 미래의 빅데이터

  • 빅데이터 활용 3요소 - 데이터 / 기술 / 인력
    1. 데이터 : 특정한 목적없이 생산된 데이터라도 창의적으로 재활용 -> 가치를 생성
    2. 기술 : 데이터 양 증가 -> 알고리즘 정확도 증가
    3. 인력 : 다각적 분석을 통해 인사이트 도출, 조직 전략 방향 제시에 활용

 

+ Recent posts