1. 모형평가

  • 가장 적합한 모형을 선택하기 위한 것

    • 기준

      • 일반화의 가능성 : 같은 모집단 내의 다른 데이터에 적용할 경우에도 안정적인 결과를 제공하는가?

      • 효율성 : 분류분석 모형이 얼마나 효과적으로 구축되어있는지를 평가 (적은 입력변수 ↑효율성 ↑)

      • 예측과 분류의 정확성 : 실제 문제에 적용했을 때의 정확성을 의미

    • Training Data (훈련용 자료) , Test Data (검증용 자료) 를 추출 -> 과적합화 문제를 해결하기 위함

  • 홀드아웃(hold-out) 방법

    • 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법

    • 전체 데이터 중 70% : 훈련용 자료 / 나머지는 검증용 자료

  • 교차검증

    • 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것

    • k-fold 교차검증

      • k의 개의 subset -> k번째 subset을 검증용 자료로, 나머지 k-1개의 subset은 훈련용 자료로 사용

  • 붓스트랩

    • 교차검증에서 훈련용 자료를 반복 재선정 한다는 점에서 차이가 있음

    • 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법을 기반

    • 전체 데이터 양이 적은 것의 모형평가에 가장 적합

    • 0.632 붓스트랩

    • 오분류표

    •  

      confusion matrix

      Predicted Class

      Positive

      Negative

      Actual class

      Positive

      TP

      FN

      Negative

      FP

      TN

      • TP : 실제값과 예측치 모두 True

      • TN : 실제값과 예측치 모두 False

      • FP : 실제값은 False 이나 True로 예측

      • FN : 실제값은 True 이나 False로 예측

    • 평가지표

      • Precision (TP) = TP / ( TP + FP )  :  Y로 예측된 것실제로도 Y인 경우의 비율

      • Accuracy = TP+TN / ( TP+FP+TN+FN ) : 전체예측에서 옳은 예측의 비율

      • Recall(Sensitivity) = TP / ( TP + FN ) : 실제로 Y인 것들 중 예측이 Y로 된 경우의 비율

      • Specificity = TN / ( FP + TN ) : 실제로 N인 것들 중 예측이 N으로 된 경우의 비율

      • FP Rate = FP / ( FP + TN ) : Y가 아닌데 Y로 예측된 비율 (1 - specificity)

      • F1 = 2*[ Precision * Recall / (Precision + Recall )] : Precision 과 Recall 의 조화평균 (0과 1사이의 값)

      • Kappa = Accuracy - P(e) / (1- P(e)) : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값 (0과 1사이의 값)

    • Roc 그래프

      • 레이더 이미지 분석의 성과를 측정하기 위해 개발된 것

      • x축에는 FP Rate ( 1- specificity ) , y축에는 Recall(민감도) - 두 평갓값의 관계로 모형을 평가

      • 그래프 밑부분 면적이 넓을수록 좋은 모형

  • 이익도표와 향상도

    • 이익(gain) : 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지 나타내느 값

    • 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표

    • 항상도곡선 (lift curve) : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 파악하는 그래프

    • 2개의 그래프를 겹쳐 그릴 수 있게 하기 위한 함수 : par(new = True)

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[12] 연관분석  (0) 2020.02.19
[11] 군집분석  (0) 2020.02.19
[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14

+ Recent posts