
퐛팅!!
data science
data scientist
- software engineering, statistics에 능통한 사람 + domain knowledge, business understanding
-데이터로부터 insight를 추출하는 사람
최근 데이터를 수집할 수 있는 능력을 가지게 되며 data collection을 통해 data science에 대한 관심이 증대됨
과거 - manually 데이터를 분석함
현재 - 컴퓨터와 네트워크 더욱 강력/ 데이터의 크기와 다양성 증대
데이터 마이닝 : 커다란 데이터 셋에서 패턴을 찾는 것/ 고객의 행동 분석을 위해 사용됨
데이터 사이언스와 마이닝은 크게 구분하지 않음
-데이터 사이언스가 데이터 마이닝을 포함함
ex) Hurricane Frances
유용한 데이터란? : 예측 모델을 통해 예측하기 힘든 자료를 발견하는 것(unobvious, unusual patterns)
not useful: 허리케인 올 때 더 많이 물 살 것이다 ->상식적으로 아는 사실
useful: 허리케인 올 때 물 소비량 증가함 -> 활용하여 미리 대비 가능함
might not be useful : 특정 디비디가 경로에서 팔렸다 -> 모든 도시에서 전반적으로 공통되게 나타나는 사실
very useful: 팝 타르트 판매량 증가 -> 예측하기 힘든 정보
ex) predecting customer churn
핸드폰 사용 수는 한정되어 있음
핸드폰 시장을 옮기려 하는 것 :churn
따라서 주어진 예산 통해서 사용자 이탈 막기 위해 노력해야 함
chrun을 하기 전 소비자들에게 special retention offer 해야 함: 이 때 어떤 소비자를 선택해야 할까?
-> data driven decision making(DDD)
:직관이 아닌 데이터의 분석에 기반한 방식
data engineering and processing -> data science -> data driven decision making(DDD)
benefit of DDD
더 많은 데이터 통해 productive해짐
-> 미국 마트에서는 판매 품목 통해서 아이가 태어나게 될 집을 예측하여 shopping habits를 예측함
automated DDD
-> 비즈니스 결정은 자동적으로 컴퓨터 시스템에 의해 이루어지는 경향이 증가하고 있음
Data Engineering vs Data Science
Data Engineering - 설계, 개발, 유지, supports data science
Data Sciencie - 모으고, 탐색하고, 분석하기
Big data - support data science (or data mining) on big data
key strategic assets in data science
1. data
2. the capability to extract useful knowledge from data(best data science team)
ex) 1) Capital one 사례
predictive model을 바탕으로 고객마다 다른 조건으로 신용카드 발급
-초반 데이터 수집하는 데 어려움 겪음 -> 랜덤한 고객 데이터 수집: 데이터 수집 비용을 투자로 생각함
성공!
아마존, 페이스북 등
Data Analytic Thinking
-근본적 개념과 원리에 따라
-시스템적 뼈대에 의해 설계됨
-> 데이터 사이언티스트가 아니더라도 데이터 사이언스에 대한 근본적 개념을 이해해야 비즈니스 이해 가능
1) systematic process 따르기
2) 중요한 정보 속성 찾기(변수)
3) 오버피팅 주의하기
(overfitting=특정 역치 이상 정확도가 높아질수록 일반화 불가능)
4) 주의깊고 objectively하게 결과 평가하기
데이터 사이언티스트에게 필요한 능력
1. science : 이론적 개념과 원리
2. technology: 도구 다루는 능력
데이터 마이닝<데이터 사이언스(빅데이터와 엔지니어링에 의존)
(단 원칙은 separate됨)
관계성 기억하기
'Data Science > 데이터사이언스개론' 카테고리의 다른 글
튜플 리스트 딕셔너리 (0) | 2023.04.24 |
---|---|
Ch4 Fitting a Model to Data (0) | 2023.04.22 |
NumPy 넘파이 배열 (0) | 2023.04.18 |
Ch3. Introduction to Predective Modeling (0) | 2023.04.16 |
Ch2. Data Science Tasks and Process (0) | 2023.04.16 |