1. 통계학 개론

  • 모집단과 표본

    • 모집단 : 관심의 대상이 되는 모든 개체의 집합

      • 모평균 , 모분산 => 모수

    • 표본 : 모집단에서 분석 대상으로 관찰된 일부의 집합 (모집단의 일부)

      • 표본평균 , 표본분산 => 통계량

    • 표본추출 방법

      • 확률적 추출

        1. 단순 무작위추출 : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우

        2. 계통추출 : 첫 번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택

        3. 층화추출 : 모집단을 성격에 따라 몇 개의 집단/층 으로 나누고 각 집단 내에서 원하는 크기의 표본 무작위 추출

        4. 군집추출 : 여러개의 집단(cluster)로 나누고 이 중 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택

      • 비확률적 추출

        1. 판단추출 : 자신의 판단에 따라 표본을 선택하는 경우

        2. 할당추출 : 모집단을 나누고, 각 집단에서 필요한 개수의 표본을 선택하되 자신의 판단에 따라 선택하는 경우

        3. 편의추출 : 연구자가 쉽게 접근할 수 있는 표본을 선택하는 경우

    • 자료의 종류

      • 척도(Scale) : 측정을 위해 부여한 숫자들 간의 관계

        1. 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여

        2. 서열(순위)척도 : 단순히 대소 or 높고 낮음 등의 순위만 제공

        3. 등간척도 : 순위를 부여, 순위 사이의 간격이 동일 => 양적인 비교가 가능 (절대0점 존재 x)

        4. 비율척도 : 절대0점 존재. 측정값 사이의 비율 계산이 가능한 척도

  • 통계분석

    • 기술통계학

      • 모집단 전체 혹은 표본으로부터 얻는 데이터에 대한 숫자 요약이나 그래프 요약을 통하여 데이터가 가진 정보를 정리하는 이론과 방법

    • 추론통계학

      • 표본으로부터 얻은 정보를 이용하여 모집단의 모수를 추론하거나 변수들 간의 함수관계의 진위 여부를 판단하는 일련의 과정에 관한 이론과 방법

  • 확률 및 확률분포

    • 표본공간 S의 부분집합인 각 사상에 대하여 실수값을 가지는 함수 P가 세가지 성질을 만족하면 확률이라함

      1. 모든 사건의 확률값은 0과 1 사이에 있다.

      2. 전체 집합의 확률은 1이다.

      3. 서로 배반인 사건들 E1,E2 ... 의 합집합의 확률은 각 사건들의 확률의 합

        • 배반사건 : 교집합이 공집합인 사건

    • 조건부확률과 독립사건

      • 사상 B가 일어났다는 조건 아래서 사상 A가 일어날 조건부 확률 ( P( B | A ) )

  • 확률분포

    • 확률변수 : 표본공간에 발생하는 원소를 정의역, 이에 대응되는 실수 값을 치역으로 하는 함수 

      • 이산확률변수 : 변수가 취할 수 있는 값을 헤아려 열거할 수 없을 때

      • 연속확률변수 : 주어진 실수 구간 내에 속하는 어떠한 실수도 취할 수 있을 때

    • 확률분포 : 치역에 해당하는 실수값을 확률로 나타낸 것

      • 이산형확률분포 : 베르누이 확률분포 , 이항분포, 기하분포, 다항분포, 포아송 분포

      • 연속형확률분포 : 균일분포, 정규분포(카이제곱분포 , F분포) , 지수분포

    • 확률변수의 기댓값과 분산

      • 확률변수 X가 취하는 변화에 따라 확률값들은 분포를 이루게 되며 이러한 확률분포의 중심이 되는 평균이 기댓값

      • X가 이산적인 경우 : μ = E(X) = xf(x)
      • X가 연속적인 경우 : E(X) = ∫xf(x)dx
      • 표준편차 : sd(X) = √Var(X)
  • 추정과 가설검정

    • 모수의 값이 얼마인지를 알아보는 점추정

      • 가장 참값이라고 여겨지는 하나의 모수의 값을 선택하는 것 ( 모수가 특정한 값일 것 이라고 추정 )

    • 모수를 포함할 것으로 기대되는 구간을 확률적으로 구하는 구간추정

      • 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것

    • 좋은 추정량이 되기위한 조건

      1. 불편성 : 추정량의 기댓값 = 모수의 값

      2. 효율성 : 추정량의 분산의 최솟값

      3. 충족성 : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성은 효율성의 필요조건

      4. 일관성 : 표본오차가 적어야함

    • 가설검정

      • 모집단의 특성에 대한 통계적 가설모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론

        • 대립가설 : 연구자가 입증하려는 주장을 담은 가설

        • 귀무가설(=영가설) 기존에 받아들여지던 가설

      • 오류

        • 제1종 오류 : 귀무가설 H。가 옳은데도 불구하고 H。를 기각하게 되는 오류

        • 제2종 오류 :귀무가설 H。옳지 않은데도 H。를 채택하는 오류

        • 1종오류를 범할 확률의 최대 허용치를 특정한 값으로 지정 -> 2종 오류의 확률을 가장 낮게 해주는 방법

      • 배경지식

        1. 검정통계량 : 관찰된 표본으로부터 구하는 통계량 -> 가설의 진위 판단하는 수단

        2. 유의확률 : 대립가설을 지지하는 검정통계량이 나올 확률

        3. 유의수준 : 제 1종 오류의 최댓값

        4. 기각역 : 검정통계량의 분포에서 유의수준 a의 크기에 해당하는 영역 -> 검정통계량의 유의성을 판정하는 기준

    • 비모수적 검정

      • 모수적 검정 : 모집단의 분포에 대해 가정

        1. 가정된 분포의 모수에 대해 가설 설정

        2. 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시

      • 비모수적 검정 : 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시

        1. 분포의 형태에 대해 설정

        2. 관측값들의 순위나 두 관측값 사이의 부호등을 이용해 검정

          • 부호검정, 윌콕슨의 순위합검정, 부호순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수

모수적 추론 비모수적 추론 베이지안 추론
모수에 대해 추론(추정,가설검정)

모집단에 대한 분포 가정을 하지 않음

수많은 모수가 필요할 수 있음

모수를 상수가 아닌 확률변수로 봄

-> 확률분포를 가짐

 

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[6] 시계열 예측  (0) 2020.02.13
[5] 기초 통계분석(2)  (0) 2020.02.12
[4] 기초 통계분석  (0) 2020.02.08
[2] 데이터 마트  (0) 2020.02.06
[1] R 기초  (0) 2020.02.06

+ Recent posts