데이터 마이닝이 이루어지는 과정
data science - 잘 알려진 stage로 이루어진 process
problem을 subtasks로 쪼개어 solution을 마련하는 것
각각의 subtask에 대한 solution간의 연관성 존재함
<Data mining Tasks>
1. Classification ( recognization) 분류
-class들은 상호 배타적임(서로 겹치는 부분이 없음)
10개의 학습데이터에 lable(truth value)를 붙이고
이후 새로운 test 데이터로 시험하기
-general procedure : training dataset -> model 만들기
-a similar task: 점수를 매기거나 class 가능성 예측하기 => 결괏값 도출(class)
target: a categorical value
2. regression (회귀)
-범위를 통한 예측이 아닌 수식을 이용한 분석(정확한 결괏값이 도출되어야 함)
-직선의 방정식 만들어 좌표평면에 나타내기 => 수식 도출(value)
target: a numerical value
3. similarity matching
-두 개체간의 거리 측정하여 유사도 수치화하기(거리가 짧을수록 비슷하다)
거리 측정 공식
(유클리드 직선거리, 각도에 따른 거리측정)
4. clustering(묶는 것)
3번 이용하여 비슷한 것끼리 묶기
(class가 존재하지 않고 grouping하는 것이 주 목적임)
5. association rule discovery
관련이 있는지, 동시에 발생되는지 entity 간의 비교
ex) 맥주를 사는 사람은 과자를 같이 사는 경향이 있다
6. profiling
-특정 개인이나 단체의 일반적인 행동 특징화하기
-정상적이지 않은 행동의 감지에 유용하다(기존 데이터와 다른 부분 찾을 수 있음)
7. link prediction
-아이템 간의 연관성 예측하기
-추천 기능에 유용하게 활용 가능
8. data reduction
-대표성이 있는 정보만 뽑아서 smaller dataset 만들기
-시간 절약에 도움이 됨
-정보의 손실 우려
9. causal modeling (인과 관계 모델링)
-서로간 어떤 인과관계가 있는지 확인하기
supervised(학습된) data mining | unsupervised data mining |
- 구체적 타겟 존재 - 타겟 예측이 목적 (classification, regression, link prediction) |
- 타겟 존재하지 않음 -training dataset 필요하지 않음 (clustering, assiociation rule discovery, profiling) |
data mining의 phase : 1. mining(패턴을 찾고 모델링하는 과정) 2. use(실제로 패턴이나 모델을 데이터에 적용)
Data mining Process
Cross Industry Standard Process for Data Mining (CRISP-DM)
1. Business Understanding
-문제를 쪼개고 해결책을 디자인 하는 것
2. Data Understanding
-데이터의 강점과 한계점을 이해하기
-데이터의 투자가 필요한지 결정하기
3. data preparation(preprocesing-전처리)
-정해진 형식에 맞게 clean, convert
-데이터 마이닝의 결과 퀄리티는 이 단계에 의해 크게 좌우된다
4. modeling
데이터 마이닝 기술이 적용되는 첫 번째 단계
-정렬이나 패턴이 output된다
5. evaluation
-데이터 마이닝 결과 엄격하게 평가하기
-즉각 테스트 실행하지 않고 반복 통해 검증하기(in a controlled lab에서)
-모델과 결과를 관계자들에게 쉽게 설명할 수 있도록 해야 할 것
6. deployment
-실제로 사용하는 것
-관계자 설치 후 사용 -> 결과 분석 후 feedback
-6단계 이후 process는 주로 첫 번째 단계로 되돌아감
또 다른 데이터 분석 기술
1. statistics
-확률변수 그래프로 나타내기
2. database systems
-소프트웨어 application : 삽입, 질의어 펼치기(query), 갱신, 관리 가능하게 함
데이터베이스 시스템과 데이터사이언티스트간의 query와 answer -database technologies 통해 가능하게 함
3. machine learning
-데이터 마이닝을 포함하는 범주
-컴퓨터 시스템에게 데이터로 학습할 수 있는 기회를 준다
ex) 표정 인식
머신 러닝 | 데이터마이닝 |
-성능 향상 -에이전시와 인지과학적 문제 에 더 집중함 |
-상업적 적용, 비즈니스 문제 -데이터들의 패턴과 regularities |
실제 활용 예시 연관지어 기억하기...
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
튜플 리스트 딕셔너리 (0) | 2023.04.24 |
---|---|
Ch4 Fitting a Model to Data (0) | 2023.04.22 |
NumPy 넘파이 배열 (0) | 2023.04.18 |
Ch3. Introduction to Predective Modeling (0) | 2023.04.16 |
Ch1 Data Analytic Thinking (0) | 2023.04.16 |