직관적으로 그래프를 통해 model performance 제공
ranking전략 활용
상위 n개의 정보를 이용하고, 각각의 정확한 확률에 대해서는 고려하지 않음
성적을 이용해 sorting 하고 thresholding 함
threshold(기준선)의 위치에 따라 true positive와 false positive값이 달라짐
상위로 올라갈수록 Y값이 줄어든다
각각의 다른 threshold는 다른 classifier 만들어냄
1)Profit curve (threshold 위치에 따라 profit 달라지는 그래프)
protif이 커질수록 고객 내에서 offer 하는 비율이 높아졌다는 뜻
투자한 비용에 비해 소득이 낮을 때 profit은 negative 가 될 수 있음
모든 classifier은 같은 지점에서 시작해 같은 지점에서 끝난다.
0%: profit 0
100%: 모두 사람이 targetted
예산이 주어질 경우 해당 x축에서 이익이 가장 큰 classifier 골라야 함
*cost, benefit, p,,n 모두 값이 stable 해야 함
-> 그러나 대부분 그렇지 않음
2) Receiver Operating Characteristic(ROC) curve
가로 false positive, 세로 true positive
(0,0) no false positive, no true positive
(1,1) true negative, false negative 없음
(0,1)perfect classifier 모두 정확하게 분류 완료됨
(x,x)random한 값
-> ranking model(score 순으로 정렬해놓은 표) 에 적용 가능함
Y값이 증가할수록 그래프 점 우상향
실제 positive, negative 값의 비율이 달라져도 점의 위치는 바뀌지 않는다
Area under the ROC curve(AUC)
면적이 클수록 좋다
ROC curve: 직관적이지 않아 실무에서 활용되기 어려움
3)-> solution: Cumuative Response Curve
보낸 비율에 따른 true positive rate 그래프로 표현함
random model 은 baseline으로 취급함-> random 위에 있으면 이득이 생긴다
4) The lift of a Classifier
random guessing보다 얼마나 더 좋은지 나타낸다
lift=target된 positive/전체 중에 Y된 비율
random =1 effective>1 perfect=2
Lift 값 토대로 Lift curve 생성
our model gives a two times lift(random 값보다 2배가 좋다는 뜻-lift 값이 두 배라는 뜻)
다양한 model을 가지고 accuracy를 판단했을 때:
:1. 모든 값이 학습에 참여되고 나서 test한 결과이므로 신뢰할 만 하지 않다
:2. 10 folds 이용해 교차검증했을 때
편차가 적을수록 좋은 데이터
accuracy와 auc 데이터가 비례하지 않음.
값이 편중되어있으면 accuracy는 정확하지 않음
->AUC를 보는 것이 더욱 의미있다.수치가 매우 높지 않더라도 도움될 수 있음(0.5가 random값)
benefit, cost 값에 따라 profit curves 값이 달라짐
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
Ch9 Evidence and Probabilities (0) | 2023.06.09 |
---|---|
Ch7 Good Model (0) | 2023.06.06 |
Ch6 Clustering (0) | 2023.06.06 |
Ch5 overfitting and its avoidance (0) | 2023.06.06 |
튜플 리스트 딕셔너리 (0) | 2023.04.24 |