'데이터분석' 태그의 글 목록

데이터분석

[1] R 기초 2020.02.06
[6] 가치창조를 위한 데이터 사이언스와 전략 인사이트 2020.02.03
[4,5] 빅데이터의 이해 , 가치와 영향 2020.02.03

[1] R 기초

2020. 2. 6. 20:59

1. R 기초

Vector(벡터)
- 숫자, 문자, 논리연산자가 들어가며, 동일한 자료형을 갖는 값들의 집합
- c() , seq() , rep()
- ex) x <- c(1,2,3) / x <- c('a','b','c') / x <- c(TRUE , FALSE)
- 유형
  - Numerical Type - 실수
  - Integer Type - 정수
  - Factor Type - 순서형 변수와 명목형 변수
  - Character Type - 문자열
변수의 유형
- 범주형 ( Categorical ) 변수
  - 명목형 ( Nominal )
  - 순서형 ( Ordinal )
- 수치형 ( Numerical ) 변수
  - 이산형 ( Discrete )
  - 연속형 ( Continuous )
Matrix (행렬)
- 한 가지 유형의 스칼라만 사용 가능
- matrix(data(vector),nrow(행의 수), ncol(열의 수), byrow=FALSE (열 우선) , dimnames=NULL (행렬의 각 차원에 부여할 이름)
- ex) m <- matrix( c(1,2,3,4,5,6) , ncol = 2 )
- 기본적으로 열을 우선으로 값들을 채우는 방향으로 입력됨
Data Frame(데이터 프레임)
- 각 열이 서로 다른 데이터 타입을 가질 수 있음 -> 데이터 크기가 커져도 다루기가 쉬움
- 벡터들의 길이가 반드시 같아야 함

a1 <- c(100,200,300)
b1 <- c("a","b", "c")
c1 <- c(FALSE,FALSE,FALSE)
D <- data.frame(income = a1, car = b1, marriage = c1)

Array (배열)
- 다차원 데이터
- ex) array(1:12,dim = c(3,4))
List (리스트)
- 서로 다른 데이터의 유형을 담을 수 있음
- ex) x<- list(name ="Leepaper" , height = 168)
- $ 을 써서 해당하는 변수의 값을 불러올 수 있음
R기초 함수
- 수열생성
  - rep(1,2) - 1번째 인수를 2번째 인수만큼 반복하는 숫자 벡터
  - seq(1,3) - 1번째 인수부터 2번째 인수까지 1씩 증가하는 숫자 벡터
    - by = n 옵션을 추가하면 n씩 증가하는 수열
    - length = m 옵션을 추가하면 전체 수열의 개수가 m개가 되도록 자동적으로 증가
- 행렬계산
  - t() - 전치행렬을 만드는 함수
  - %*%을 이용해 두 행렬의 곱셈을 할 수 있음
  - 행렬 A에 대해 * 을 통해 스칼라 곱의 결과를 얻을 수 있음
  - solve() 함수로 역행렬을 계산
- 기초적인 대푯값 및 분산
  - mean(c) - 평균
  - var (c) - 분산
  - sd (c) - 표준편차
- 기초적인 변환 및 상관계수 공분
  - sum(c) - 합
  - median(c) - 중앙 값
  - log (c) - 자연로그 값
  - cov(a,c) - 공분산
  - cor(a,c) - 상관계수
  - summary(a) - 최솟값, 최댓값, 중앙값 , 평균 (사분위수)
R 데이터 핸들링
- 벡터형 변수는 [ n ]를 붙여서 n번째 원소에 해당되는 값을 불러옴
- [ -n ]은 n번째 원소를 제외한 값들을 불러옴
- 반복문,조건문
  - for ( i in 1:9 ) { ~~~ }
  - while (조건) { ~~~~ }
  - if~else : ifelse(조건문, True일때 값 , False일때 값)
- 사용자 정의 함수
  - function()을 이용해 함수 생성
- 유용한 기능들
  - paste() - 입력받은 문자열들을 하나로 붙여줌
    - sep = "" 을 통해 붙이고자 하는 문자열들 사이에 삽입
  - substr() - 문자 추출
  - as.data.frame() - 데이터 프레임 형식으로 변환
  - as.list() - 리스트 형식으로 변환
  - as.matrix() - 행렬 형식으로 변환
  - as.vector() - 벡터 형식으로 변환
  - as.factor() - factor 형식으로 변환
  - as.integer() - 실수형 벡터 -> 정수형 벡터로 변환
  - as.numeric() - 논리값을 수치형을 변환
  - as.logical() - 수치형을 논리값으로 변환
  - as.Date() - 문자열을 날짜로 변환
  - as.Date(, format = "%m/%d/%Y") - 날짜를 문자열로 변환
  - format (Sys.Date()) - 현재 날짜 불러오기
R 그래픽 기능
- 산점도 그래프
  - x 변수와 y변수의 값을 한눈에 살펴볼 수 있도록 평면에 점을 찍어 표현
  - plot(x,y)
- 산점도 행렬
  - 여러가지 변수에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬
  - pairs()
- 히스토그램과 상자그림
  - hist() - 히스토그램
  - boxplot() - 상자그림

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측 (0)	2020.02.13
[5] 기초 통계분석(2) (0)	2020.02.12
[4] 기초 통계분석 (0)	2020.02.08
[3] 통계분석 (0)	2020.02.07
[2] 데이터 마트 (0)	2020.02.06

[6] 가치창조를 위한 데이터 사이언스와 전략 인사이트

2020. 2. 3. 18:25

1. 빅데이터 분석과 전략 인사이트

빅데이터 열풍과 회의론
- 기존의 분석 프로젝트를 포장해 빅데이터 성공사례로 내놓음
싸이월드와 페이스북
- 싸이월드 - 직관에 근거해 의사결정
- 페이스북 - 데이터 분석에 기초해 전략적 통찰을얻고 효과적인 의사결정 -> 구체적인 성과
데이터의 양만 많은게 핵심이 아니다
- 데이터의 양이 아니라 유형의 다양성(음석,텍스트,이미지,비디오)이 핵심
전략적 통찰이 없는 분석의 함정
- 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는 것이 어려움
일차적인 분석 vs 전략 도출 위한 가칠 기반 분석
- 인구통계학적 변화, 경제사회 트렌드, 고객 니즈의 변화 등을 고려, 다른 대변화 예측
- 일차적인 분석 애플리케이션 사례
  1. 금융서비스 : 신용점수 산정, 사기 탐지, 고객 수익성 분석
  2. 소매업 : 재고 보충, 수요예측
  3. 제조업 : 맞춤형 상품 개발, 신상품 개발
  4. 에너지 : 트레이딩 , 공급 , 수요예측
  5. 온라인 : 웹 매트릭스, 사이트 설계, 고객 추천

2. 전략 인사이트 도출을 위한 필요 역량

데이터 사이언스 의미와 역할
- 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상
- 통계학과 다른 점은 데이터 사이언스는 총제적 접근법을 사용
- 전략적 통찰을 추구 , 비즈니스 핵심 이슈에 답, 사업의 성과를 견인
데이터 사이언스의 구성요소
1. Data Management(데이터 관리)
2. Analytics(데이터 분석)
3. 비즈니스 분석
데이터 사이언티스트의 역량
1. 강력한 호기심
2. 소프트스킬
  - 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)
  - 설득력 있는 전달 (스토리텔링, Visualization(시각화))
  - 협력 (Communication (소통))
3. 하드스킬 - 이론적 지식, 분석 기술
Gartner(가트너)가 본 데이터 사이언티스트의 역량
1. 데이터관리
2. 분석모델링
3. 비즈니스 분석
4. 소프트스킬
전략적 통찰력과 인문학의 부활
1. 단순 세계화 -> 복잡한 세계화로의 변화
2. 비즈니스 중심이 제품생산 -> 서비스 로 이동
3. 경제와 산업의 논리가 생산에서 시장 창조로 바뀜
데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할

	과거	현재	미래
infomation (정보)	리포팅	경고	추출
insight (통찰력)	모델링	권고	예측,최적화

데이터 분석 모델링에서 인문학적 통찰력의 적용 사례
- 인간을 바라보는 유형별 세 가지 관점
  1. 인간을 타고난 성향의 관점에서 바라보는 것
  2. 인간을 행동적 관점에서 바라보는 것
  3. 인간을 상황적 관점에서 바라보는 것

3. 빅데이터 그리고 데이터 사이언스의 미래

빅데이터 회의론을 넘어: 가치 패러다임의 변화
- Digitalization -> Connection -> Agenct
  1. '디지털화' - 아날로그세상에서 디지털화, 가치창출의 원천
  2. '연결' - 새로운 시대에서 디지털화된 정보와 대상들은 서로 연결되기 시작 ( 사물인터넷 (IOT) )
  3. '에이전시(agency)' - '복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리해주는가'의 이슈

'ADSP > 1강) 데이터의 이해' 카테고리의 다른 글

[4,5] 빅데이터의 이해 , 가치와 영향 (0)	2020.02.03
[2,3] 데이터베이스 정의와 특징 & 활용 (0)	2020.01.21
[1] 데이터와 정보 (0)	2020.01.13

[4,5] 빅데이터의 이해 , 가치와 영향

2020. 2. 3. 17:53

1. 빅데이터의 이해

데이터 크기 관점
- 일반적인 DB 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
데이터 분석 관점
- 대규모 데이터를 저렴한 비용으로 가치를 추출, 초고속 수집, 발굴 ,분석을 지원하도록 고안된 차세대 기술 및 아키텍처
데이터 가치 관점
- 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일
가트너 그룹 더 그래니가 언급한 빅데이터의 정의
- Volume - 생성되는 모든 데이터를 수집
- Variety - 정형화된 데이터를 넘어 텍스트,오디오,비디오 등 모든 유형의 데이터를 분석대상으로 함
- Velocity - 사용자가 원하는 시간내에 분석 결과를 제공하는 것 / 데이터의 업데이트 되는 속도가 매우 빨라지는 것

데이터 단위
- 1TB - 1024 GB
- 1PB(페타바이트) - 1024 TB
- 1EB(엑사바이트) - 1024 PB
- 1ZB(제타바이트) - 1024 EB

2. 빅데이터 기능

차세대 산업혁명에서 해낼 것으로 기대됨 - 제조업뿐만아니라 서비스 분야 생산성 ↑
경제성장에 필요한 '정보'를 제공 - 산업 전반의 생산성을 한 단계 향상
데이터가 산업 전반에 영향을 미칠 것
'공동 활용의 목적으로 구축된 유무형의 구조물' - 플랫폼

3. 빅데이터가 만들어낸 변화

사전처리 -> 사후처리 : 가능한 한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보를 찾아냄
표본조사 -> 전수조사 : 표본조사가 주지 못하는 패턴이나 정보를 제공
질 << 양 : 데이터 수가 증가함에 따라 사소한 몇개의 오류 데이터가 영항을 주지 않음
인과관계 -> 상관관계 : 인과관계 모델은 비용이 매우 비쌈, 비즈니스 상황에서는 상관관계만으로 충분함

2. 빅데이터의 가치와 영향

1. 빅데이터 가치

빅데이터의 가치 산정이 어려운 이유
1. 데이터의 활용 방식 : 언제 어디서 누가 활용할지 알 수 없음
2. 새로운 가치 창출 : 기존에 없던 가치를 창출 --> 측정하기 어려움
3. 분석 기술의 발달 : 가치없는 데이터도 거대한 가치를 만들어 내는 재료가 될 가능성이 있음

2. 빅데이터의 영향

빅데이터 영향
1. 기업 : 혁신, 경쟁력 제고, 생산성 향상
2. 정부 : 환경탐색, 상황분석, 미래대응
3. 개인 : 목적에 따라 활용
빅데이터가 가치를 만들어내는 방식
1. 투명성 제고로 연구개발 및 관리 효율성 제고
2. 시뮬레이션을 통한 수요포착 및 주요 변수 탐색으로 경쟁력 강화
3. 고객 세분화 및 맞춤 서비스 제공
4. 알고리즘 활용한 의사결정 보조 , 대체
5. 비즈니스 모델,제품,서비스의 혁신

3. 비즈니스 모델

빅데이터 활용 사례
1. 구글 검색엔진, 월마트의 구매패턴 분석, IBM 왓슨 의료 분야에 활용
2. 정부의 실시간 교통정보 활용 ( CCTV )
3. 정치인의 사회관계망분석을 통한 유세, 가수의 팬 음악청취 기록 분석 활용
4. 아마존의 킨들에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공
빅데이터 활용 테크닉
1. 연관 규칙 학습 : 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
2. 유형분석 : 사용자가 어떤 특성을 가진 집단에 속하는가 와 같은 문제를 해결하고자 할때 사용
3. 유전 알고리즘 : 최적화의 메커니즘을 찾아가는 방법
4. 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 "예측" 하는 일에 초점
5. 회귀분석 : "구매자의 나이가 구매차량의 타입에 어떤영향을 미치는가?" 와 같은 문제를 답할 때 사용
6. 감정분석 : "새로운 환불 정책에 대한 고객의 평가는 어떤가?" 를 알고 싶을 때 활용
7. 소셜 네트워크 분석(= 사회관계망분석 SNA) : 영향력 있는 사람을 찾아낼 수 있으면, 고객들 간 소셜 관계 파악

4. 위기 요인과 통제 방안

사생활 침해 - 특정 데이터가 본래 목적 외에 가공 처리돼 다른 목적으로 활용될 가능성이 증가
1. 익명화
2. 동의에서 책임으로 변경 - 사용자에게 책임을 지움
책임 원칙의 훼손 - 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성 증가
1. 기존 책임 원칙을 강화
데이터의 오용 - 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있음
1. 데이터 알고리즘에 대한 접근권 허용
2. 객관적 인증방안을 도입하는 필요성을 제기

5. 미래의 빅데이터

빅데이터 활용 3요소 - 데이터 / 기술 / 인력
1. 데이터 : 특정한 목적없이 생산된 데이터라도 창의적으로 재활용 -> 가치를 생성
2. 기술 : 데이터 양 증가 -> 알고리즘 정확도 증가
3. 인력 : 다각적 분석을 통해 인사이트 도출, 조직 전략 방향 제시에 활용

'ADSP > 1강) 데이터의 이해' 카테고리의 다른 글

[6] 가치창조를 위한 데이터 사이언스와 전략 인사이트 (0)	2020.02.03
[2,3] 데이터베이스 정의와 특징 & 활용 (0)	2020.01.21
[1] 데이터와 정보 (0)	2020.01.13

PREV 1 NEXT

Programmiry

데이터분석

[1] R 기초

1. R 기초

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 가치창조를 위한 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석과 전략 인사이트

2. 전략 인사이트 도출을 위한 필요 역량

3. 빅데이터 그리고 데이터 사이언스의 미래

'ADSP > 1강) 데이터의 이해' 카테고리의 다른 글

[4,5] 빅데이터의 이해 , 가치와 영향

1. 빅데이터의 이해

2. 빅데이터 기능

3. 빅데이터가 만들어낸 변화

2. 빅데이터의 가치와 영향

1. 빅데이터 가치

2. 빅데이터의 영향

3. 비즈니스 모델

'ADSP > 1강) 데이터의 이해' 카테고리의 다른 글

+ Recent posts

티스토리툴바