- 지도학습(supervised learning)
- 비지도학습(unsupervised learning)
- 강화학습(reinforcement learning)
- 훈련용 데이터(training data)를 이용하여 주어진 입력값에 대해 연속적인 값을 예측하는 것.
- 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석방법.
- 시간에 떠라 변화하는 데이터, 가설적 실험, 인간관계의 모델링등의 통계적 예측.
- 경제지표 예측, 사회학 연구, 마케팅, 의학에서 치료의 효과를 분석, 재난시 피해액 산정, 선거 결과예측, 범죄 발생 예측
- 단순 회귀, 다중회귀
- 회귀분석에서 사용하는 알고리즘
- 선형 회귀(linear regression)
- kNN(K Nearest Neighbor)
- SVM(Support Vector Machine)
- 로지스틱 회귀(logistic regression)
- 랜덤 포레스트(random forest)
- 신경망(neural network - 인공신경망, artificial neural network, ANN) 등.
- 훈련용 데이터(training data)를 이용하여 어떤 항목(item) 즉 주어진 입력값이 어느 그룹에 속하는지를 판별하는 기능.
- 두 가지(클래스, 레이블) 카테고리를 나누는 작업을 이진 분류(binary classification), 새 개 이상의 클래스를 나누면 다중 분류(multiclass classification)
- 새로 도착한 메일이 스팸인지 아닌지를 판별
- 우수고객을찾아내거나, 충성심높은신입사원을선발
- 투자할 좋은 회사를 구분하는 작업
- 매장에 들어오는 사람을 보고 이 사람이 물건을 살고객인지,단순히 구경만 할 고객인지,
- 아니면 항의하러 들어오는 고객인지를 판단하여 적절하게 대응하려고 한다면 매장에 들어오는 고객의 타입을 분류.
- 광고 안내문이나 기념품을 잠재 고객에게 보내는 경우에도 기왕이면 구매할 확률이 높은 고객을 찾아서 보내는 것이 좋을 것.
- 과거의 구매이력 데이터 분석 SNS 등 고객의 다른 활동 데이터를 같이 분석하여 우수 고객을 분류
- 분류에 사용되는 알고리즘
- 확률적인 모델을 이용한 베이시안 알고리즘.