1. R 기초

  • Vector(벡터)

    • 숫자, 문자, 논리연산자가 들어가며, 동일한 자료형을 갖는 값들의 집합

    • c() , seq() , rep()

    • ex) x <- c(1,2,3) / x <- c('a','b','c') / x <- c(TRUE , FALSE)

    • 유형

      • Numerical Type - 실수

      • Integer Type - 정수

      • Factor Type - 순서형 변수와 명목형 변수

      • Character Type - 문자열

  • 변수의 유형

    • 범주형 ( Categorical ) 변수

      • 명목형 ( Nominal )

      • 순서형 ( Ordinal )

    • 수치형 ( Numerical ) 변수

      • 이산형 ( Discrete )

      • 연속형 ( Continuous )

  • Matrix (행렬)

    • 한 가지 유형의 스칼라만 사용 가능

    • matrix(data(vector),nrow(행의 수), ncol(열의 수), byrow=FALSE (열 우선) , dimnames=NULL (행렬의 각 차원에 부여할 이름) 

    • ex) m <- matrix( c(1,2,3,4,5,6) , ncol = 2 )  

    • 기본적으로 열을 우선으로 값들을 채우는 방향으로 입력됨

  • Data Frame(데이터 프레임)

    • 각 열이 서로 다른 데이터 타입을 가질 수 있음 -> 데이터 크기가 커져도 다루기가 쉬움

    • 벡터들의 길이가 반드시 같아야 함

a1 <- c(100,200,300)
b1 <- c("a","b", "c")
c1 <- c(FALSE,FALSE,FALSE)
D <- data.frame(income = a1, car = b1, marriage = c1)
  • Array (배열)

    • 다차원 데이터

    • ex) array(1:12,dim = c(3,4))

  • List (리스트)

    • 서로 다른 데이터의 유형을 담을 수 있음

    • ex)  x<- list(name ="Leepaper" , height = 168)

    • $ 을 써서 해당하는 변수의 값을 불러올 수 있음

  • R기초 함수

    • 수열생성

      • rep(1,2) - 1번째 인수를 2번째 인수만큼 반복하는 숫자 벡터

      • seq(1,3) - 1번째 인수부터 2번째 인수까지 1씩 증가하는 숫자 벡터

        • by = n 옵션을 추가하면 n씩 증가하는 수열

        • length = m 옵션을 추가하면 전체 수열의 개수가 m개가 되도록 자동적으로 증가

    • 행렬계산

      • t() - 전치행렬을 만드는 함수

      • %*%을 이용해 두 행렬의 곱셈을 할 수 있음

      • 행렬 A에 대해 * 을 통해 스칼라 곱의 결과를 얻을 수 있음

      • solve() 함수로 역행렬을 계산

    • 기초적인 대푯값 및 분산

      • mean(c) - 평균

      • var (c) - 분산

      • sd (c) - 표준편차

    • 기초적인 변환 및 상관계수 공분

      • sum(c) - 합

      • median(c) - 중앙 값

      • log (c) - 자연로그 값

      • cov(a,c) - 공분산

      • cor(a,c) - 상관계수

      • summary(a) - 최솟값, 최댓값, 중앙값 , 평균 (사분위수)

  • R 데이터 핸들링

    • 벡터형 변수는 [ n ]를 붙여서 n번째 원소에 해당되는 값을 불러옴

    • [ -n ]은 n번째 원소를 제외한 값들을 불러옴

    • 반복문,조건문

      • for ( i in 1:9 ) { ~~~ }

      • while (조건) { ~~~~ }

      • if~else : ifelse(조건문, True일때 값 , False일때 값)

    • 사용자 정의 함수

      • function()을 이용해 함수 생성

    • 유용한 기능들

      • paste() - 입력받은 문자열들을 하나로 붙여줌

        • sep = "" 을 통해 붙이고자 하는 문자열들 사이에 삽입

      • substr() - 문자 추출

      • as.data.frame() - 데이터 프레임 형식으로 변환

      • as.list() - 리스트 형식으로 변환

      • as.matrix() - 행렬 형식으로 변환

      • as.vector() - 벡터 형식으로 변환

      • as.factor() - factor 형식으로 변환

      • as.integer() - 실수형 벡터 -> 정수형 벡터로 변환

      • as.numeric() - 논리값을 수치형을 변환

      • as.logical() - 수치형을 논리값으로 변환

      • as.Date() - 문자열을 날짜로 변환

      • as.Date(, format = "%m/%d/%Y") - 날짜를 문자열로 변환

      • format (Sys.Date()) - 현재 날짜 불러오기

  • R 그래픽 기능

    • 산점도 그래프

      • x 변수와 y변수의 값을 한눈에 살펴볼 수 있도록 평면에 을 찍어 표현

      • plot(x,y)

    • 산점도 행렬

      • 여러가지 변수에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬 

      • pairs()

    • 히스토그램과 상자그림

      • hist() - 히스토그램

      • boxplot() - 상자그림

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[3] 통계분석  (0) 2020.02.07
[2] 데이터 마트  (0) 2020.02.06

+ Recent posts