overfitting 과적합, 과잉적합
모델은 아직 알지 못한 것들에 대해 예측할 수 있어야 함
더 복잡한 모델을 사용할수록 정확도가 높아지지만 과적합도 높아짐
전략: 1. 인지하고 2. 복잡도를 control 해야 함
how to recognize overfitting
data를 training 과 test 데이터로 나눈뒤 복잡도에 따른 에러 관찰
underfitting -> 적합 -> overfitting
트리에서 노드의 개수를 늘릴수록 complexity 증가, w정확도 높아졌지만 generalized 되었다고는 말 못함
sweet spot : 가장 fitting 이 잘 된 구간 : 이론적으로 이 구간을 찾을 수 있는 방법은 없으니 하나씩 시도해보기
함수를 더 복잡하게 만드는 방법 : 항 추가, 변수 추가
overfitting 피하는 방법: 중요한 정보만 선정하기, holdout technique 사용하기
holdout evaluation의 문제점: 한 번 test 시에 신뢰하기 어려움
-> Cross validation: 쪼개서 여러번 테스트 할수록, 값 간의 차이 적을수록 신뢰도 상승
k fold cross validation : k개로 쪼개어 검증하기
학습 데이터의 수가 많을수록 성능이 좋아진다
Regularization 규제: 딥러닝 주요 개념
overfitting 피하기 위해 제압하는 것(rein)
-> decision tree: 노드 개수 줄이기, linear model: 속성 개수 줄이기
1. tree
<3 regularization techniques to avoid overfitting>
1. 너무 복잡해지기 전에 growing 멈추게 하기
->split 되는 최소한의 숫자 설정하기
2. 매우 클 때까지 크게 만들고 가지치기(prune)하기
->립과 가지를 잘라내기(교체하는 것이 정확도를 낮추지는 않는다)
3. 트리 여러개 만들어서 가장 좋은 것 고르기
->가장 정확도가 높은 트리를 고른다
2. linear models
가장 나은 성질을 하나 선택하고 계속해서 선택하다가 정확도를 높이지 않는다면 그만두기(해당 것 빼기)
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
Ch7 Good Model (0) | 2023.06.06 |
---|---|
Ch6 Clustering (0) | 2023.06.06 |
튜플 리스트 딕셔너리 (0) | 2023.04.24 |
Ch4 Fitting a Model to Data (0) | 2023.04.22 |
NumPy 넘파이 배열 (0) | 2023.04.18 |