1. R 기초
-
Vector(벡터)
-
숫자, 문자, 논리연산자가 들어가며, 동일한 자료형을 갖는 값들의 집합
-
c() , seq() , rep()
-
ex) x <- c(1,2,3) / x <- c('a','b','c') / x <- c(TRUE , FALSE)
-
유형
-
Numerical Type - 실수
-
Integer Type - 정수
-
Factor Type - 순서형 변수와 명목형 변수
-
Character Type - 문자열
-
-
-
변수의 유형
-
범주형 ( Categorical ) 변수
-
명목형 ( Nominal )
-
순서형 ( Ordinal )
-
-
수치형 ( Numerical ) 변수
-
이산형 ( Discrete )
-
연속형 ( Continuous )
-
-
-
Matrix (행렬)
-
한 가지 유형의 스칼라만 사용 가능
-
matrix(data(vector),nrow(행의 수), ncol(열의 수), byrow=FALSE (열 우선) , dimnames=NULL (행렬의 각 차원에 부여할 이름)
-
ex) m <- matrix( c(1,2,3,4,5,6) , ncol = 2 )
-
기본적으로 열을 우선으로 값들을 채우는 방향으로 입력됨
-
-
Data Frame(데이터 프레임)
-
각 열이 서로 다른 데이터 타입을 가질 수 있음 -> 데이터 크기가 커져도 다루기가 쉬움
-
벡터들의 길이가 반드시 같아야 함
-
a1 <- c(100,200,300)
b1 <- c("a","b", "c")
c1 <- c(FALSE,FALSE,FALSE)
D <- data.frame(income = a1, car = b1, marriage = c1)
-
Array (배열)
-
다차원 데이터
-
ex) array(1:12,dim = c(3,4))
-
-
List (리스트)
-
서로 다른 데이터의 유형을 담을 수 있음
-
ex) x<- list(name ="Leepaper" , height = 168)
-
$ 을 써서 해당하는 변수의 값을 불러올 수 있음
-
-
R기초 함수
-
수열생성
-
rep(1,2) - 1번째 인수를 2번째 인수만큼 반복하는 숫자 벡터
-
seq(1,3) - 1번째 인수부터 2번째 인수까지 1씩 증가하는 숫자 벡터
-
by = n 옵션을 추가하면 n씩 증가하는 수열
-
length = m 옵션을 추가하면 전체 수열의 개수가 m개가 되도록 자동적으로 증가
-
-
-
행렬계산
-
t() - 전치행렬을 만드는 함수
-
%*%을 이용해 두 행렬의 곱셈을 할 수 있음
-
행렬 A에 대해 * 을 통해 스칼라 곱의 결과를 얻을 수 있음
-
solve() 함수로 역행렬을 계산
-
-
기초적인 대푯값 및 분산
-
mean(c) - 평균
-
var (c) - 분산
-
sd (c) - 표준편차
-
-
기초적인 변환 및 상관계수 공분
-
sum(c) - 합
-
median(c) - 중앙 값
-
log (c) - 자연로그 값
-
cov(a,c) - 공분산
-
cor(a,c) - 상관계수
-
summary(a) - 최솟값, 최댓값, 중앙값 , 평균 (사분위수)
-
-
-
R 데이터 핸들링
-
벡터형 변수는 [ n ]를 붙여서 n번째 원소에 해당되는 값을 불러옴
-
[ -n ]은 n번째 원소를 제외한 값들을 불러옴
-
반복문,조건문
-
for ( i in 1:9 ) { ~~~ }
-
while (조건) { ~~~~ }
-
if~else : ifelse(조건문, True일때 값 , False일때 값)
-
-
사용자 정의 함수
-
function()을 이용해 함수 생성
-
-
유용한 기능들
-
paste() - 입력받은 문자열들을 하나로 붙여줌
-
sep = "" 을 통해 붙이고자 하는 문자열들 사이에 삽입
-
-
substr() - 문자 추출
-
as.data.frame() - 데이터 프레임 형식으로 변환
-
as.list() - 리스트 형식으로 변환
-
as.matrix() - 행렬 형식으로 변환
-
as.vector() - 벡터 형식으로 변환
-
as.factor() - factor 형식으로 변환
-
as.integer() - 실수형 벡터 -> 정수형 벡터로 변환
-
as.numeric() - 논리값을 수치형을 변환
-
as.logical() - 수치형을 논리값으로 변환
-
as.Date() - 문자열을 날짜로 변환
-
as.Date(, format = "%m/%d/%Y") - 날짜를 문자열로 변환
-
format (Sys.Date()) - 현재 날짜 불러오기
-
-
-
R 그래픽 기능
-
산점도 그래프
-
x 변수와 y변수의 값을 한눈에 살펴볼 수 있도록 평면에 점을 찍어 표현
-
plot(x,y)
-
-
산점도 행렬
-
여러가지 변수에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬
-
pairs()
-
-
히스토그램과 상자그림
-
hist() - 히스토그램
-
boxplot() - 상자그림
-
-
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[6] 시계열 예측 (0) | 2020.02.13 |
---|---|
[5] 기초 통계분석(2) (0) | 2020.02.12 |
[4] 기초 통계분석 (0) | 2020.02.08 |
[3] 통계분석 (0) | 2020.02.07 |
[2] 데이터 마트 (0) | 2020.02.06 |