1. 모형평가
-
가장 적합한 모형을 선택하기 위한 것
-
기준
-
일반화의 가능성 : 같은 모집단 내의 다른 데이터에 적용할 경우에도 안정적인 결과를 제공하는가?
-
효율성 : 분류분석 모형이 얼마나 효과적으로 구축되어있는지를 평가 (적은 입력변수 ↑효율성 ↑)
-
예측과 분류의 정확성 : 실제 문제에 적용했을 때의 정확성을 의미
-
-
Training Data (훈련용 자료) , Test Data (검증용 자료) 를 추출 -> 과적합화 문제를 해결하기 위함
-
-
홀드아웃(hold-out) 방법
-
원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법
-
전체 데이터 중 70% : 훈련용 자료 / 나머지는 검증용 자료
-
-
교차검증
-
주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것
-
k-fold 교차검증
-
k의 개의 subset -> k번째 subset을 검증용 자료로, 나머지 k-1개의 subset은 훈련용 자료로 사용
-
-
-
붓스트랩
-
교차검증에서 훈련용 자료를 반복 재선정 한다는 점에서 차이가 있음
-
관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법을 기반
-
전체 데이터 양이 적은 것의 모형평가에 가장 적합
-
0.632 붓스트랩
-
오분류표
-
confusion matrix
Predicted Class
Positive
Negative
Actual class
Positive
TP
FN
Negative
FP
TN
-
TP : 실제값과 예측치 모두 True
-
TN : 실제값과 예측치 모두 False
-
FP : 실제값은 False 이나 True로 예측
-
FN : 실제값은 True 이나 False로 예측
-
-
평가지표
-
Precision (TP) = TP / ( TP + FP ) : Y로 예측된 것 중 실제로도 Y인 경우의 비율
-
Accuracy = TP+TN / ( TP+FP+TN+FN ) : 전체예측에서 옳은 예측의 비율
-
Recall(Sensitivity) = TP / ( TP + FN ) : 실제로 Y인 것들 중 예측이 Y로 된 경우의 비율
-
Specificity = TN / ( FP + TN ) : 실제로 N인 것들 중 예측이 N으로 된 경우의 비율
-
FP Rate = FP / ( FP + TN ) : Y가 아닌데 Y로 예측된 비율 (1 - specificity)
-
F1 = 2*[ Precision * Recall / (Precision + Recall )] : Precision 과 Recall 의 조화평균 (0과 1사이의 값)
-
Kappa = Accuracy - P(e) / (1- P(e)) : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값 (0과 1사이의 값)
-
-
Roc 그래프
-
레이더 이미지 분석의 성과를 측정하기 위해 개발된 것
-
x축에는 FP Rate ( 1- specificity ) , y축에는 Recall(민감도) - 두 평갓값의 관계로 모형을 평가
-
그래프 밑부분 면적이 넓을수록 좋은 모형
-
-
-
이익도표와 향상도
-
이익(gain) : 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지 나타내느 값
-
해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표
-
항상도곡선 (lift curve) : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 파악하는 그래프
-
2개의 그래프를 겹쳐 그릴 수 있게 하기 위한 함수 : par(new = True)
-
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[12] 연관분석 (0) | 2020.02.19 |
---|---|
[11] 군집분석 (0) | 2020.02.19 |
[9] 앙상블 모형 (0) | 2020.02.16 |
[8] 신경망 모형 (0) | 2020.02.15 |
[7] 데이터마이닝 (0) | 2020.02.14 |