- 수집한 데이터가 들어옸을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정
- 본격적인 데이터 분석 전, 직관적인 방법으로 자료를 통찰하는 과정
EDA 정의
- 다양한 방법(요약정보, 기초통계, 시각화 등)을 통해 자료를 관찰하고 이해하는 과정
- 데이터의 분포 및 값 검토를 통해 데이터가 표현하는 현상 이해
- 데이터 분석 진행 전 해당 데이터의 탐색과 이해를 위한 전반적인 사전 탐색
EDA 필요성
- 데이터가 표현하는 현상 이해, 내재된 잠재적 문제에 대해 인식 및 해결안 도출 가능
- 문제 정의 단계에서 인지 못한 새로운 양상, 패턴 발견 가능
EDA 과정 및 절차
- 분석 목적과 변수 확인: 개별 변수의 이름,특성 확인
- 데이터의 문제성 확인: 결측치/이상치 유무, 분포상의 이상형태 확인
- 데이터의 개별 속성값 분포 확인: 기초통계량을 통해 데이터가 예상한 범위와 분포를 가지는 지 확인
- 데이터 사이의 관계 확인: 개별 속성에서 보이지 않는 상관관계 확인
개별 데이터 관찰
: 데이터 값을 눈으로 살펴보면서 전체적인 추세, 특이사항 관찰
- 데이터의 앞/뒤 부분 관찰, 무작위 표본 추출 등 사용
- 분석 목적과 변수 파악
데이터 문제성 확인
: 결측치와 이상치 유무 확인 및 왜 발생했는지 의미 파악
- 어떻게 대처할 지(제거, 대체, 유지 등) 판단
- 결측치 대치 방법: 단순대치, 다중대치 등
- 이상치 대치 방법: 제거, 대체, 유지 등
데이터의 개별 속성값 분포 확인
: 적절한 요약 통계지표를 사용해서 데이터를 이해
- 데이터의 중심: 평균(mean), 중앙값(median), 최빈값(mode)
- 데이터의 분산: 범위(range), 분산(variance), 표준편차(standard deviation)
: 사분위 범위 (IQR, Inter Quartile Range) 방법 사용
: 시각화를 통해 주어진 데이터의 개별 속성 파악
- 확률밀도함수, 히스토그램, 박스플롯, 산점도 등
- 워드클라우드, 시계열 차트, 지도 등
데이터의 속성간 관계 파악
: 상관관계 분석을 통해 데이터 속성 간의 관계 파악
- 두 변수 간에 선형적 관계가 있는 지 분석
- 관계가 없으면 독립적인 관계, 존재하면 상관된 관계
'빅데이터분석기사_실기 > 제1유형: 데이터 전처리' 카테고리의 다른 글
데이터 변환: 범주화(Categorization), 이산형화(Discretization) (0) | 2024.06.13 |
---|---|
데이터 변환: 정규분포 변환 (1) | 2024.06.12 |
데이터 변환: Min-Max 정규화 (0) | 2024.06.12 |
데이터 변환: Z-표준화, Z-Score (1) | 2024.06.12 |
데이터 탐색 실습 (1) | 2024.06.12 |