
Two types of predictive modeling
1. nonparametric modeling | 2.parametric modeling(parameter learning) |
-정해지지 않은 형태, 데이터에 의해 학습된다 ex)결정트리 |
-정해짐. 데이터 분석가들에 의해 구체화된다 -파라미터가 정해지지 않은 상태에서 가장 적절한 최선의 파라미터를 찾는다 domain knowledge, 다른 데이터마이닝 기술들을 기반으로 결정된다 목표: 최적화된 파라미터를 찾는 것 ex)선형회귀 -좌표계에 대해서 수직 방향으로 직선 형성됨(linear combination) -직선에 대해 위에 있는지, 아래에 있는지 확인해야됨 |
결정트리 : 결정 경계를 수직하게 만들 수 있고 많은 범위로 쪼개기 가능
선형 classifier : 결정 경계 여러 방향 가능,두 개로만 쪼개기 가능
*decision boundary의 형태는 차원에 따라 달라진다
*가장 좋은 w값 찾아야 함
->w값이 클수록 x값의 중요도가 더욱 높아진다
방법?
1. 목표값을 나타내는 cost,loss(objective) 함수 정의하기
2. objective function을 최대값 또는 최솟값으로 만드는 최적화된 value 찾기
최적의 w를 찾기 위한 세 가지 방법
1. support vector machine(SVM)
-margin이 maximize 될 때 최
2. Linear regression
3. Logistic regression
1. SVM
-SVMs are linear classifiers
-margin이 가장 클 때 최적상태가 된다
-misclassification이 생기는 상황에서
1) margin의 사이즈 측정하기(폭이 클수록 좋음)
2) 잘못된 결괏값이 나오는 부분에 penalty 주기
2.Linear Regression
1)각각의 개별 포인트에서 생기는 error값 비교하기(error: 점과 선 사이의 거리)
2)error의 합 구하기
3)w의 값 구하기
*error의 합의 제곱값을 최소화할 수 있는 w를 구해야 함
*왜 제곱인가? -절댓값 수학적 어려움, 그냥 합을 구하면 하나의 정답이 나오지 않음
3. Logistic Regression
linear model f(x)를 새로운 데이터가 특정 값에 속해있을 확률로 정의함
직접적으로 f(x)사용하기보다는 logistic function P(x)를 사용하여 확률을 추정하는 데 사용함
p(x)에서 positive instances 는 1에 가까운 값일 수록 좋음
p(x)에서 negative instances는 0에 가까운 값일수록 좋음
0.5를 기준으로 positive, negative가 나뉘어짐
objective(cost) function의 예시
ex) 이진 분류(0 또는 1로 나뉘는 상황)
H(X)의 정확한 값 하나하나에 매몰되지 않고 0또는 1쪽으로 이동하는 값으로 분류해서 값의 범위를 줄이는 방법을 사용
H(X)값은 정확한 값이 아닌 가설로 실제 y값과 비교해보아야 함
y값과 비교했을 때 동일하다면 최저로/ 다르다면 최대로 cost값 조정하기=> Cost Function함수로 나타낼 수 있음
*최적의 w값을 찾는 방법
-> cost(W)함수를 편미분해서 0이 되는 지점 찾기
이 때 함수 자체가 복잡해지면 미분하는 것이 어려워진다
->solution: 최대경사법 (Gradient Descent Algorithm)
a값은 상시 변화하며, a값이 어느 정도이냐에 따라서 이동하는 거리가 달라짐
ex) logistic Regression의 예시
-> benign maligant 암 여부 판정하기 weka를 통해서 분석 가능 (영상 다시 보기)
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
Ch5 overfitting and its avoidance (0) | 2023.06.06 |
---|---|
튜플 리스트 딕셔너리 (0) | 2023.04.24 |
NumPy 넘파이 배열 (0) | 2023.04.18 |
Ch3. Introduction to Predective Modeling (0) | 2023.04.16 |
Ch2. Data Science Tasks and Process (0) | 2023.04.16 |