DSAC Module2 DATA Process & Analysis


2024 데이터 프로세스 & 분석 실무교육(DSAC M2)

Published on August 24, 2024 by 강준우

데이터분석 AI

4 min READ

1. 데이터 분석 개요

  • 1.1. 데이터 분석 목적
  • 1.2. 데이터 분석 유형
  • 1.3. 데이터 분석의 특징
  • 1.4. 데이터 분석 프로세스


1.1 데이터 분석 목적

  • 데이터 분석이란 컴퓨터가 데이터를 분석하여 중요한 의미를 추출하거나 미래를 예측하는 모델을 만드는 기술.
  • 데이터 분석을 사용하는 목적, 데이터 분석으로 문제를 해결하는 유형
    • 예측(prediction)
    • 설명(description)
    • 추천(recommendation)


예측(prediction)

  • 새로운 샘플에 대한 미래값을 예측하는 것.
  • 예측에는 회귀(regression)와 분류(classification)가 있다.
    • 회귀는 수치를 예측하는 것.
      • 내일의 날씨 예측, 주가 예측, 병에걸릴 확률이 얼마일지, 가게의 매출이 얼마일지 등을 예측.
    • 분류는 주어진 샘플이 어느 카테고리에 속하는지를 예측하는 것.
      • 수신한 메일이(스팸인지 아닌지), 은행 대출이(부도인지 아닌지), 고객이(우수 인지 아닌지)를 예측.

설명(description)

  • 설명이란 어떤 현상의 원인을 데이터 분석을 통해 설명하는 것
    • 어떤 상품이 많이 팔렸다면 그이유를 파악하는 것 등.
    • 슈퍼마켓에서 어떤 품목들이 자주 같이 판매되는지 패턴을 찾아내는 것.
    • 일종의 서술형 모델로 유사한 특성을 가진 항목들을 함께 묶는 것(군집화).
    • 군집화도 서술형 모델.
  • 설명적 분석은 데이터를 이해하는 것.
    • 마켓 리서치, 고객의 행동전환 파악, 탐색적 분석 - 이를 통해서 새로운 인사이트를 얻도록 함.

추천(recommendation)

  • 추천이란 주어진 조건에서 최적의 선택을 제시하는것.
  • 의사 결정을 돕는 것
  • 설명 및 예측 모델을 활용.
    • 상품추천, 영화추천, 음악추천, 약추천, 네비게이터, 검색엔진, 자율차의 운행, 알파고와 같은 게임플레이어, 보험사기청구 거절 등.


1.2. 데이터 분석 유형

- 지도학습(supervised learning)
- 비지도학습(unsupervised learning)
- 강화학습(reinforcement learning)
  • 데이터 분석은 회귀나 분류등 예측에 주로 사용.
  • 예측은 예측한 시간이 모두 지나면 정답을 확인할 수 있음.
  • 데이터 분석 모델의 성능을 정확이 평가 가능.

지도 학습(supervised learning)

  • 입력 값(x)과 정답(y, lebel)을 포함하는(정답이 있는) 훈련용 데이터(training data)를 이용하여 학습하고, 그 학습된 결과를 바탕으로 미지의 데이터 즉, 시험용 데이터(test data)에 대해 미래(predict)값을 예측 하는 방법.
  • 입력 값(x)을 독립변수, 원인변수라고 함.
  • 정답에 해당하는 값을 목적변수(target variable), 종속변수, 결과변수 또는 레이블(label)이라고 함.
  • 레이블은 회귀분석에서 수치로 주어지고 분류에서는 카테고리 변수로 표현.
  • 스팸메일 분류를 학습시키려면 어떤 메일이 스팸이었는지 정답 샘플도 같이 주어져야 함.

회귀(regression)

- 훈련용 데이터(training data)를 이용하여 주어진 입력값에 대해 연속적인 값을 예측하는 것.
- 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석방법.
    - 시간에 떠라 변화하는 데이터, 가설적 실험, 인간관계의 모델링등의 통계적 예측.
    - 경제지표 예측, 사회학 연구, 마케팅, 의학에서 치료의 효과를 분석, 재난시 피해액 산정, 선거 결과예측, 범죄 발생 예측
- 단순 회귀, 다중회귀
- 회귀분석에서 사용하는 알고리즘
    - 선형 회귀(linear regression)
    - kNN(K Nearest Neighbor)
    - SVM(Support Vector Machine)
    - 로지스틱 회귀(logistic regression)
    - 랜덤 포레스트(random forest)
    - 신경망(neural network - 인공신경망, artificial neural network, ANN) 등.

분류(classification)

- 훈련용 데이터(training data)를 이용하여 어떤 항목(item) 즉 주어진 입력값이 어느 그룹에 속하는지를 판별하는 기능.
- 두 가지(클래스, 레이블) 카테고리를 나누는 작업을 이진 분류(binary classification), 새 개 이상의 클래스를 나누면 다중 분류(multiclass classification)
    - 새로 도착한 메일이 스팸인지 아닌지를 판별
    - 우수고객을찾아내거나, 충성심높은신입사원을선발
    - 투자할 좋은 회사를 구분하는 작업
    - 매장에 들어오는 사람을 보고 이 사람이 물건을 살고객인지,단순히 구경만 할 고객인지,
    - 아니면 항의하러 들어오는 고객인지를 판단하여 적절하게 대응하려고 한다면 매장에 들어오는 고객의 타입을 분류.
    - 광고 안내문이나 기념품을 잠재 고객에게 보내는 경우에도 기왕이면 구매할 확률이 높은 고객을 찾아서 보내는 것이 좋을 것.
    - 과거의 구매이력 데이터 분석 SNS 등 고객의 다른 활동 데이터를 같이 분석하여 우수 고객을 분류
    - 분류에 사용되는 알고리즘
        - 확률적인 모델을 이용한 베이시안 알고리즘.

비지도학습(unsupervised learning)

  • 정답(목적변수, label)은 없고 입력 데이터만 있는 훈련용 데이터(trainung data)를 이용한 학습을 통해 정답을 찿는 것이 아니라, 입력 데이터의 패턴이나, 특성 등 을 발견하는 방법으로 데이터의 특성을 기술하는 서술형 모델.
  • 훈련 데이터에 목적변수가 포함되어 있지 않다.
  • 데이터의 특성을 기술하는 서술형 모델.
    • 군집화(clustering), 연관분석, 시각화, 데이터변환, 주성분분석(PCA,Principal Component Analysis - 차원축소,변수 추출) 등.
  • 연관 분석

강화학습(reinforcement learning)

  • 강화학습(reinforcement learning)은 데이터 분석모델이 어느 방향으로 만들어져야 하는지 방향성만 알려주는학습 방법.
  • 입력 샘플마다 정답 있어 답을 알려주는 것이 아니지만 시간이 흐르면서 모델이 바람직한 방향으로 가고 있는지를 알려줄 수있고 이를 통해서 학습하는 방법이다.
  • 2017년 이세돌을 이긴 알파고(Alpha Go) 바둑프로그램은 강화학습 방법을 사용하여 개발.


1.3. 데이터 분석의 특징

  • 데이터분석은 예측이나 설명을수행하기위해서 모델을 사용
    • 스팸 메일을 찾아내는 모델
    • 누가 게임에서 이길지 예측하는 모델
    • 내일 날씨를 예측하는 모델 등

데이터 분석과 인공지능 - (AI: artificial intelligence)

  • 인공지능이란 컴퓨터가 마치 지능이 있는 것처럼 똑똑하게 동작하는 것을 통칭

빅데이터와 인공지능

  • 인공지능은 빅데이터 공급으로 급속히 발전
  • 사물인터넷(IOT:Internet of Things)


1.4 데이터 분석 프로세스

프로세스 요약(p21)

- 문제정의: 해결하려는 문제를 명확히 정의하는 것

- 전략수립: 문제해결을 위해 어떤 데이터를 어떻게 사용할지를 정하는 것

- 데이터수집: 데이터 분석에 필요한 데이터를 수집하는 것

- 데이터분석 모델구현: 분류, 회귀, 설명, 추천등을 위한 데이터 분석 모델을 구현하는 것

- 결과 적용: 데이터 분석 모델을 실제상황에 적용하고 성능을 개선