Evidence-Based Classification 증거 기반 분류 -> 각각의 특징(feature value)을 증거로 생각함 obtain the strength of the evidence given by each feature, we can combine them probabilistically joint probability: 결합 확률 p(AB): 두 사건이 동시에 발생할 확률: joint probability 만약 두 사건이 독립적으로 일어난다면 p(AB)=p(A)p(B) 조건부확률 공식 ->Bayes' rule 공식 : 우변을 통해 좌변 값 추정 사전확률, 사후확률 사후확률의 활용용도 1. 발생확률 추정 2. 순위 매기는 데 사용 3. 확률 비교를 통해 가장 사후확률이 높은 값 확인할 수 ..
Data Science/데이터사이언스개론
직관적으로 그래프를 통해 model performance 제공ranking전략 활용상위 n개의 정보를 이용하고, 각각의 정확한 확률에 대해서는 고려하지 않음성적을 이용해 sorting 하고 thresholding 함threshold(기준선)의 위치에 따라 true positive와 false positive값이 달라짐상위로 올라갈수록 Y값이 줄어든다각각의 다른 threshold는 다른 classifier 만들어냄 1)Profit curve (threshold 위치에 따라 profit 달라지는 그래프)protif이 커질수록 고객 내에서 offer 하는 비율이 높아졌다는 뜻투자한 비용에 비해 소득이 낮을 때 profit은 negative 가 될 수 있음모든 classifier은 같은 지점에서 시작해 같은 지..
Evaluating Classifiers 결과를 모르는 class의 결과를 예측 accuracy=맞은 결과/전체 개수=1-error rate Confusion Matrix(weka 결과와 반대) -unbalanced classes 하나의 class가 희귀한 경우 class 분류가 균일하지 않고 skewed 될 수 있음-> breaks down(의미가 없다) 실제 결과는 달라도 accuracy는 동일할 수 있다(misleading 될 수 있음) 정확도가 set에 따라 달라질 수 있음(true churn rate 비율이 달라지면 결과도 달라짐) false negative와 false positive의 차이를 구분하지 못함(동등하게 취급됨)-가중치를 다르게 부여할 필요있음 ->expected profit(ex..
similarity, neighbors, and cluseters Similarity 공통된 특징 찾기 -물건 추천, 비슷한 경우로부터 추론, clustering(비슷한 것끼리 묶기) 유사도 측정 -> via distance 거리 공식 사용하기(Euclidean Distance) Nearest-neighbor reasoning : 가장 가까운 이웃 most similar 1) Classification using nearest neighbors 중심으로부터 가까운 k개의 데이터 찾아서 다수인 것을 따름/probablilty 도 측정 가능 2) Regression Using NN 2.1 k를 몇으로 할까? 평균 값 이용해 실제 값 예측해보기 -> k를 결정하는 단순한 정답이 없음. 여러 과정을 거쳐야 함 ..
overfitting 과적합, 과잉적합 모델은 아직 알지 못한 것들에 대해 예측할 수 있어야 함 더 복잡한 모델을 사용할수록 정확도가 높아지지만 과적합도 높아짐 전략: 1. 인지하고 2. 복잡도를 control 해야 함 how to recognize overfitting data를 training 과 test 데이터로 나눈뒤 복잡도에 따른 에러 관찰 underfitting -> 적합 -> overfitting 트리에서 노드의 개수를 늘릴수록 complexity 증가, w정확도 높아졌지만 generalized 되었다고는 말 못함 sweet spot : 가장 fitting 이 잘 된 구간 : 이론적으로 이 구간을 찾을 수 있는 방법은 없으니 하나씩 시도해보기 함수를 더 복잡하게 만드는 방법 : 항 추가, 변..
zip() 함수 for q,a in zip(questions,answers): print(f'What is your {q}? It is {a}") pop(i) remove() del list[i] (del numbers[-1]) heros.sort() sorted(heros) 최댓값 찾는 방법 : sorting하거나 min max 함수 이용 values=temps => 얕은복사 values=list(temps) => 깊은복사 리스트 역순으로 만들기 numbers[::-1] list[:]=[] 리스트의 모든 요소 삭제 변경이 불가능한 개체 call by value :id값이 변경된다 call by reference *리스트 함축* mprices=[i if i>0 else0 for i in prices] m..

Two types of predictive modeling 1. nonparametric modeling 2.parametric modeling(parameter learning) -정해지지 않은 형태, 데이터에 의해 학습된다 ex)결정트리 -정해짐. 데이터 분석가들에 의해 구체화된다 -파라미터가 정해지지 않은 상태에서 가장 적절한 최선의 파라미터를 찾는다 domain knowledge, 다른 데이터마이닝 기술들을 기반으로 결정된다 목표: 최적화된 파라미터를 찾는 것 ex)선형회귀 -좌표계에 대해서 수직 방향으로 직선 형성됨(linear combination) -직선에 대해 위에 있는지, 아래에 있는지 확인해야됨 결정트리 : 결정 경계를 수직하게 만들 수 있고 많은 범위로 쪼개기 가능 선형 classif..

기존의 파이썬 리스트 : 여러 개의 값들을 저장할 수 있는 자료구조이지만 다양한 연산 불가, 연산 속도 느림 => 해결방안 : 파이썬 대신 넘파이를 활용한 데이터 처리가 많음(scikit learn, tensorflow) 넘파이 배열 : n개의 축 -> n차원 배열 / c언어에 기반한 배열 구조더하기 연산자 적용시파이썬 리스트2개의 리스트가 연결된 하나의 리스트넘파이 배열대응되는 값이 합쳐진 결과합 구하기 import numpy as np (np는 별칭) mid_scores=np.array([10,20,30]) final_array=np.array([10,20,30]) total=mid_scores+final_array np.sin(A) mid_scores= mid_scores + 100 / *2/ *2..