[3] 통계분석

2020. 2. 7. 22:54

1. 통계학 개론

모집단과 표본
- 모집단 : 관심의 대상이 되는 모든 개체의 집합
  - 모평균 , 모분산 => 모수
- 표본 : 모집단에서 분석 대상으로 관찰된 일부의 집합 (모집단의 일부)
  - 표본평균 , 표본분산 => 통계량
- 표본추출 방법
  - 확률적 추출
    1. 단순 무작위추출 : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
    2. 계통추출 : 첫 번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택
    3. 층화추출 : 모집단을 성격에 따라 몇 개의 집단/층 으로 나누고 각 집단 내에서 원하는 크기의 표본 무작위 추출
    4. 군집추출 : 여러개의 집단(cluster)로 나누고 이 중 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택
  - 비확률적 추출
    1. 판단추출 : 자신의 판단에 따라 표본을 선택하는 경우
    2. 할당추출 : 모집단을 나누고, 각 집단에서 필요한 개수의 표본을 선택하되 자신의 판단에 따라 선택하는 경우
    3. 편의추출 : 연구자가 쉽게 접근할 수 있는 표본을 선택하는 경우
- 자료의 종류
  - 척도(Scale) : 측정을 위해 부여한 숫자들 간의 관계
    1. 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여
    2. 서열(순위)척도 : 단순히 대소 or 높고 낮음 등의 순위만 제공
    3. 등간척도 : 순위를 부여, 순위 사이의 간격이 동일 => 양적인 비교가 가능 (절대0점 존재 x)
    4. 비율척도 : 절대0점 존재. 측정값 사이의 비율 계산이 가능한 척도
통계분석

기술통계학
- 모집단 전체 혹은 표본으로부터 얻는 데이터에 대한 숫자 요약이나 그래프 요약을 통하여 데이터가 가진 정보를 정리하는 이론과 방법
추론통계학
- 표본으로부터 얻은 정보를 이용하여 모집단의 모수를 추론하거나 변수들 간의 함수관계의 진위 여부를 판단하는 일련의 과정에 관한 이론과 방법

확률 및 확률분포
- 표본공간 S의 부분집합인 각 사상에 대하여 실수값을 가지는 함수 P가 세가지 성질을 만족하면 확률이라함
  1. 모든 사건의 확률값은 0과 1 사이에 있다.
  2. 전체 집합의 확률은 1이다.
  3. 서로 배반인 사건들 E1,E2 ... 의 합집합의 확률은 각 사건들의 확률의 합
    - 배반사건 : 교집합이 공집합인 사건
- 조건부확률과 독립사건
  - 사상 B가 일어났다는 조건 아래서 사상 A가 일어날 조건부 확률 ( P( B | A ) )

확률분포
- 확률변수 : 표본공간에 발생하는 원소를 정의역, 이에 대응되는 실수 값을 치역으로 하는 함수
  - 이산확률변수 : 변수가 취할 수 있는 값을 헤아려 열거할 수 없을 때
  - 연속확률변수 : 주어진 실수 구간 내에 속하는 어떠한 실수도 취할 수 있을 때
- 확률분포 : 치역에 해당하는 실수값을 확률로 나타낸 것
  - 이산형확률분포 : 베르누이 확률분포 , 이항분포, 기하분포, 다항분포, 포아송 분포
  - 연속형확률분포 : 균일분포, 정규분포(카이제곱분포 , F분포) , 지수분포
- 확률변수의 기댓값과 분산
  - 확률변수 X가 취하는 변화에 따라 확률값들은 분포를 이루게 되며 이러한 확률분포의 중심이 되는 평균이 기댓값
  - X가 이산적인 경우 : μ = E(X) = xf(x)
  - X가 연속적인 경우 : E(X) = ∫xf(x)dx
  - 표준편차 : sd(X) = √Var(X)
추정과 가설검정
- 모수의 값이 얼마인지를 알아보는 점추정
  - 가장 참값이라고 여겨지는 하나의 모수의 값을 선택하는 것 ( 모수가 특정한 값일 것 이라고 추정 )
- 모수를 포함할 것으로 기대되는 구간을 확률적으로 구하는 구간추정
  - 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것
- 좋은 추정량이 되기위한 조건
  1. 불편성 : 추정량의 기댓값 = 모수의 값
  2. 효율성 : 추정량의 분산의 최솟값
  3. 충족성 : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성은 효율성의 필요조건
  4. 일관성 : 표본오차가 적어야함
- 가설검정
  - 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
    - 대립가설 : 연구자가 입증하려는 주장을 담은 가설
    - 귀무가설(=영가설) : 기존에 받아들여지던 가설
  - 오류
    - 제1종 오류 : 귀무가설 H。가 옳은데도 불구하고 H。를 기각하게 되는 오류
    - 제2종 오류 :귀무가설 H。옳지 않은데도 H。를 채택하는 오류
    - 1종오류를 범할 확률의 최대 허용치를 특정한 값으로 지정 -> 2종 오류의 확률을 가장 낮게 해주는 방법
  - 배경지식
    1. 검정통계량 : 관찰된 표본으로부터 구하는 통계량 -> 가설의 진위 판단하는 수단
    2. 유의확률 : 대립가설을 지지하는 검정통계량이 나올 확률
    3. 유의수준 : 제 1종 오류의 최댓값
    4. 기각역 : 검정통계량의 분포에서 유의수준 a의 크기에 해당하는 영역 -> 검정통계량의 유의성을 판정하는 기준
- 비모수적 검정
  - 모수적 검정 : 모집단의 분포에 대해 가정
    1. 가정된 분포의 모수에 대해 가설 설정
    2. 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
  - 비모수적 검정 : 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시
    1. 분포의 형태에 대해 설정
    2. 관측값들의 순위나 두 관측값 사이의 부호등을 이용해 검정
      - 부호검정, 윌콕슨의 순위합검정, 부호순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수

모수적 추론

비모수적 추론

베이지안 추론

모수에 대해 추론(추정,가설검정)

모집단에 대한 분포 가정을 하지 않음

수많은 모수가 필요할 수 있음

모수를 상수가 아닌 확률변수로 봄

-> 확률분포를 가짐

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측 (0)	2020.02.13
[5] 기초 통계분석(2) (0)	2020.02.12
[4] 기초 통계분석 (0)	2020.02.08
[2] 데이터 마트 (0)	2020.02.06
[1] R 기초 (0)	2020.02.06

Programmiry

[3] 통계분석

1. 통계학 개론

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바