Evaluating Classifiers
결과를 모르는 class의 결과를 예측
accuracy=맞은 결과/전체 개수=1-error rate
Confusion Matrix(weka 결과와 반대)
<균일하지 않은 classes의 문제점>-unbalanced classes
하나의 class가 희귀한 경우 class 분류가 균일하지 않고 skewed 될 수 있음-> breaks down(의미가 없다)
실제 결과는 달라도 accuracy는 동일할 수 있다(misleading 될 수 있음)
정확도가 set에 따라 달라질 수 있음(true churn rate 비율이 달라지면 결과도 달라짐)
<동등하지 않은 cost와 benefits의 문제점>
false negative와 false positive의 차이를 구분하지 못함(동등하게 취급됨)-가중치를 다르게 부여할 필요있음
->expected profit(expected benefit, expected cost)-기댓값 표현할 필요 있음
Metrics for Regression models
Mean error(ME), Mean absolute error(MAE), Mean square error(MSE), Root mean square error(RMSE), Max error
기댓값(Expected Value(EV))
data analytic thinking을 위한 유용한 도구
EV=p(o1)v(o1)+pv+pv
확률*value(cost, benefit,profit)
expected benefit of targeting=pr(x)(응답 비율)*vr+((1-pr(x))(미응답비율)*nvr)
기댓값이 0보다 클 경우에만 target 해야 함(이득이 있는 방향으로)
-> 개개인의 결정이 아닌 결정 집단으로 생각해보기
EV에서 각각의 o는 혼동행렬의 한 부분에 해당됨-> 즉 혼동행렬에서의 기댓값 구할 수 있음
1. 각각의 확률 구하기(한 칸의 개수/전체 개수)
2,. value(cost or benefit)구하기 b(h,a) c(h,a)
3. 기댓값 계산하기 -> 이득이 큰 방향으로 모델 만들어야 함
Alternative Calculation of EV
조건부확률 이용하기
p(x,y)=p(y)*p(x\y)
->이용해 기존 기댓값 공식 수정하기
정확도 대신 기댓값 활용하기
*p(n),p(p)는 전체 분의 p,n이 차지하는 비율(조건부 확률과 구분되어야 함)
true positive rate(=sensitivity,민감도), false negative rate
true negative rate(=specificity, 특이도), false positive rate
information retrieval에 자주 사용되는 값: precision,recall(=true positve rate)
f-measure=2*precision*recall/(precision+recall)
->harmonic mean(조화평균)
baseline performance(기준선)
1. random model
2. simple model(직전 값과 동일한 값, 이전 값의 평균)
3, 다수의 값(zeroR)
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
Ch9 Evidence and Probabilities (0) | 2023.06.09 |
---|---|
Ch8 visualizing Model Performance (0) | 2023.06.06 |
Ch6 Clustering (0) | 2023.06.06 |
Ch5 overfitting and its avoidance (0) | 2023.06.06 |
튜플 리스트 딕셔너리 (0) | 2023.04.24 |