본문 바로가기

빅데이터분석기사_실기/제1유형: 데이터 전처리

탐색적 데이터 분석 EDA: Exploratory Data Analysis

  • 수집한 데이터가 들어옸을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정
  • 본격적인 데이터 분석 전, 직관적인 방법으로 자료를 통찰하는 과정

EDA 정의

  • 다양한 방법(요약정보, 기초통계, 시각화 등)을 통해 자료를 관찰하고 이해하는 과정
  • 데이터의 분포 및 값 검토를 통해 데이터가 표현하는 현상 이해
  • 데이터 분석 진행 전 해당 데이터의 탐색과 이해를 위한 전반적인 사전 탐색

EDA 필요성

  • 데이터가 표현하는 현상 이해, 내재된 잠재적 문제에 대해 인식 및 해결안 도출 가능
  • 문제 정의 단계에서 인지 못한 새로운 양상, 패턴 발견 가능

EDA 과정 및 절차

  • 분석 목적과 변수 확인: 개별 변수의 이름,특성 확인
  • 데이터의 문제성 확인: 결측치/이상치 유무, 분포상의 이상형태 확인
  • 데이터의 개별 속성값 분포 확인: 기초통계량을 통해 데이터가 예상한 범위와 분포를 가지는 지 확인
  • 데이터 사이의 관계 확인: 개별 속성에서 보이지 않는 상관관계 확인

개별 데이터 관찰

: 데이터 값을 눈으로 살펴보면서 전체적인 추세, 특이사항 관찰

  • 데이터의 앞/뒤 부분 관찰, 무작위 표본 추출 등 사용
  • 분석 목적과 변수 파악

 

데이터 문제성 확인

: 결측치와 이상치 유무 확인 및 왜 발생했는지 의미 파악

  • 어떻게 대처할 지(제거, 대체, 유지 등) 판단
  • 결측치 대치 방법: 단순대치, 다중대치 등
  • 이상치 대치 방법: 제거, 대체, 유지 등

 

데이터의 개별 속성값 분포 확인

: 적절한 요약 통계지표를 사용해서 데이터를 이해

  • 데이터의 중심: 평균(mean), 중앙값(median), 최빈값(mode)
  • 데이터의 분산: 범위(range), 분산(variance), 표준편차(standard deviation)

: 사분위 범위 (IQR, Inter Quartile Range) 방법 사용

: 시각화를 통해 주어진 데이터의 개별 속성 파악

  • 확률밀도함수, 히스토그램, 박스플롯, 산점도 등
  • 워드클라우드, 시계열 차트, 지도 등

 

데이터의 속성간 관계 파악

: 상관관계 분석을 통해 데이터 속성 간의 관계 파악

  • 두 변수 간에 선형적 관계가 있는 지 분석
  • 관계가 없으면 독립적인 관계, 존재하면 상관된 관계