
힘내좌 아좌좟...! 계산 문제 출제 거의 확실시되는 파트..계산방법만큼은 정확히 익힐 수 있도록!
Predective Modeling
-데이터를 가장 잘 묘사하는 모델을 만들어 새로운 데이터에 적용하기
-분류에 대해 먼저 고려할 것(어느 곳에 속해있는 데이터인지 따져보기)
model
-목적에 따라 간략하게 표현
-필요한 정보와 불필요한 정보 분류하면서 요약
Predective Model | Descriptive Model |
모르는 관심있는 값을 추측하는 formula -수학적 표현 (선형 회귀) -논리적 statement(또는 규칙) (결정트리) -정확성 예측 |
-전반적 데이터에 대한 인사이트를 얻기 위한 목적 (clustering, profiling) -정량적 부분 보다는 정성적 판단 |
terminologies for classification
-model- 함수를 통해 target value(y/n)를 결정
-label=value of target=class label
model induction
-model을 데이터화하여 유추해 내는 것
-많은 표본에 대입해도 정확도 일치하게 하는 것
-모델은 통계적인 측면에서의 general rules이므로 무조건 일치하는 것은 아님
classification
-데이터를 서브그룹으로 분류하기(타겟에 대한 다른 value를 가지고 있는 것으로)
selecting informative attributes
-중요한 정보를 담고 있는 속성 선택하기
-정확도가 높을수록 더 나은 attribute
=> 더 나은 attribute 선택하는 방법???
pure
-same value를 가진 멤버만 존재할 때
-적어도 하나가 다르다면 impure
information gain(IG)
-엔트로피*에 기반한 값
엔트로피: 복잡도
if entropy is decreased. we gain information
if entropy is increased, we lost information
엔트로피 구하는 공식 H(S)
엔트로피 바탕으로 IG구하기
Numerical Variables
-카테고리별로 결과가 나오는 것이 아닌 부등호, 등호를 이용해 숫자를 끊어서 분류하는 방법
idea(1) : 하나 이상의 포인트를 잡아 쪼개서 -> 카테고리 분류로 취급하기
idea(2): 쪼개는 포인트 후보를 정해서 엔트로피 IG검사 통해 가장 높은 IG 나오는 분류포인트 선정하기
Tree-structed segmentation
-여러 속성을 통해 분류한 데이터를 나타내는 방법?: tree이용하기
(분류기준은 매 층마다 달라도 됨)
-divide and conquer 활용하기
-가장 잘 속성을 분류할 수 있는 방법 찾기
-각각의 서브그룹에서 재귀적으로 그 그룹을 또 분류할 수 있는 방법 찾기
*엔트로피가 0이 되는 순간 중단하되, overfitting 유의하기
Visualizing segmentation | probability estimation tree (simple classification tree의 발전 단계) |
-2~3가지 특징만 분류 가능 -복잡하기 않아 이해하기 쉬움(tree induction도 마찬가지) |
-단순 분류 이상 확률을 알고 싶을 때 -립노드의 값에 확률 명시하기 |
tree <-> visualizing segmentation 호환하는 연습하기
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
튜플 리스트 딕셔너리 (0) | 2023.04.24 |
---|---|
Ch4 Fitting a Model to Data (0) | 2023.04.22 |
NumPy 넘파이 배열 (0) | 2023.04.18 |
Ch2. Data Science Tasks and Process (0) | 2023.04.16 |
Ch1 Data Analytic Thinking (0) | 2023.04.16 |