1. 통계학 개론
-
모집단과 표본
-
모집단 : 관심의 대상이 되는 모든 개체의 집합
-
모평균 , 모분산 => 모수
-
-
표본 : 모집단에서 분석 대상으로 관찰된 일부의 집합 (모집단의 일부)
-
표본평균 , 표본분산 => 통계량
-
-
표본추출 방법
-
확률적 추출
-
단순 무작위추출 : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
-
계통추출 : 첫 번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택
-
층화추출 : 모집단을 성격에 따라 몇 개의 집단/층 으로 나누고 각 집단 내에서 원하는 크기의 표본 무작위 추출
-
군집추출 : 여러개의 집단(cluster)로 나누고 이 중 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택
-
-
비확률적 추출
-
판단추출 : 자신의 판단에 따라 표본을 선택하는 경우
-
할당추출 : 모집단을 나누고, 각 집단에서 필요한 개수의 표본을 선택하되 자신의 판단에 따라 선택하는 경우
-
편의추출 : 연구자가 쉽게 접근할 수 있는 표본을 선택하는 경우
-
-
-
자료의 종류
-
척도(Scale) : 측정을 위해 부여한 숫자들 간의 관계
-
명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여
-
서열(순위)척도 : 단순히 대소 or 높고 낮음 등의 순위만 제공
-
등간척도 : 순위를 부여, 순위 사이의 간격이 동일 => 양적인 비교가 가능 (절대0점 존재 x)
-
비율척도 : 절대0점 존재. 측정값 사이의 비율 계산이 가능한 척도
-
-
-
-
통계분석
-
기술통계학
-
모집단 전체 혹은 표본으로부터 얻는 데이터에 대한 숫자 요약이나 그래프 요약을 통하여 데이터가 가진 정보를 정리하는 이론과 방법
-
-
추론통계학
-
표본으로부터 얻은 정보를 이용하여 모집단의 모수를 추론하거나 변수들 간의 함수관계의 진위 여부를 판단하는 일련의 과정에 관한 이론과 방법
-
-
확률 및 확률분포
-
표본공간 S의 부분집합인 각 사상에 대하여 실수값을 가지는 함수 P가 세가지 성질을 만족하면 확률이라함
-
모든 사건의 확률값은 0과 1 사이에 있다.
-
전체 집합의 확률은 1이다.
-
서로 배반인 사건들 E1,E2 ... 의 합집합의 확률은 각 사건들의 확률의 합
-
배반사건 : 교집합이 공집합인 사건
-
-
-
조건부확률과 독립사건
-
사상 B가 일어났다는 조건 아래서 사상 A가 일어날 조건부 확률 ( P( B | A ) )
-
-
-
확률분포
-
확률변수 : 표본공간에 발생하는 원소를 정의역, 이에 대응되는 실수 값을 치역으로 하는 함수
-
이산확률변수 : 변수가 취할 수 있는 값을 헤아려 열거할 수 없을 때
-
연속확률변수 : 주어진 실수 구간 내에 속하는 어떠한 실수도 취할 수 있을 때
-
-
확률분포 : 치역에 해당하는 실수값을 확률로 나타낸 것
-
이산형확률분포 : 베르누이 확률분포 , 이항분포, 기하분포, 다항분포, 포아송 분포
-
연속형확률분포 : 균일분포, 정규분포(카이제곱분포 , F분포) , 지수분포
-
-
확률변수의 기댓값과 분산
-
확률변수 X가 취하는 변화에 따라 확률값들은 분포를 이루게 되며 이러한 확률분포의 중심이 되는 평균이 기댓값
- X가 이산적인 경우 : μ = E(X) = xf(x)
- X가 연속적인 경우 : E(X) = ∫xf(x)dx
- 표준편차 : sd(X) = √Var(X)
-
-
-
추정과 가설검정
-
모수의 값이 얼마인지를 알아보는 점추정
-
가장 참값이라고 여겨지는 하나의 모수의 값을 선택하는 것 ( 모수가 특정한 값일 것 이라고 추정 )
-
-
모수를 포함할 것으로 기대되는 구간을 확률적으로 구하는 구간추정
-
일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것
-
-
좋은 추정량이 되기위한 조건
-
불편성 : 추정량의 기댓값 = 모수의 값
-
효율성 : 추정량의 분산의 최솟값
-
충족성 : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성은 효율성의 필요조건
-
일관성 : 표본오차가 적어야함
-
-
가설검정
-
모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
-
대립가설 : 연구자가 입증하려는 주장을 담은 가설
-
귀무가설(=영가설) : 기존에 받아들여지던 가설
-
-
오류
-
제1종 오류 : 귀무가설 H。가 옳은데도 불구하고 H。를 기각하게 되는 오류
-
제2종 오류 :귀무가설 H。옳지 않은데도 H。를 채택하는 오류
-
1종오류를 범할 확률의 최대 허용치를 특정한 값으로 지정 -> 2종 오류의 확률을 가장 낮게 해주는 방법
-
-
배경지식
-
검정통계량 : 관찰된 표본으로부터 구하는 통계량 -> 가설의 진위 판단하는 수단
-
유의확률 : 대립가설을 지지하는 검정통계량이 나올 확률
-
유의수준 : 제 1종 오류의 최댓값
-
기각역 : 검정통계량의 분포에서 유의수준 a의 크기에 해당하는 영역 -> 검정통계량의 유의성을 판정하는 기준
-
-
-
비모수적 검정
-
모수적 검정 : 모집단의 분포에 대해 가정
-
가정된 분포의 모수에 대해 가설 설정
-
관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
-
-
비모수적 검정 : 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시
-
분포의 형태에 대해 설정
-
관측값들의 순위나 두 관측값 사이의 부호등을 이용해 검정
-
부호검정, 윌콕슨의 순위합검정, 부호순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수
-
-
-
-
모수적 추론 | 비모수적 추론 | 베이지안 추론 |
모수에 대해 추론(추정,가설검정) |
모집단에 대한 분포 가정을 하지 않음 수많은 모수가 필요할 수 있음 |
모수를 상수가 아닌 확률변수로 봄 -> 확률분포를 가짐 |
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[6] 시계열 예측 (0) | 2020.02.13 |
---|---|
[5] 기초 통계분석(2) (0) | 2020.02.12 |
[4] 기초 통계분석 (0) | 2020.02.08 |
[2] 데이터 마트 (0) | 2020.02.06 |
[1] R 기초 (0) | 2020.02.06 |