본문 바로가기

빅데이터분석기사_실기/제1유형: 데이터 전처리

(10)
데이터 탐색 실습 데이터 불러오기from google.colab import drivedrive.mount('/content/drive')import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path)실습 데이터 중비~데이터프레임 살펴보기데이터 타입 변환df.info()Pclass는 숫자형 int 이지만, 범주형 변수 이므로(1등급, 2등급, 3등급) astype 함수를 사용하여 변수 타입을 변환데이터['컬럼명'] = 데이터['컬럼명'].astype(변환할타입)str: 문자열형int: 정수형float: 실수형bo..
탐색적 데이터 분석 EDA: Exploratory Data Analysis 수집한 데이터가 들어옸을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정본격적인 데이터 분석 전, 직관적인 방법으로 자료를 통찰하는 과정EDA 정의다양한 방법(요약정보, 기초통계, 시각화 등)을 통해 자료를 관찰하고 이해하는 과정데이터의 분포 및 값 검토를 통해 데이터가 표현하는 현상 이해데이터 분석 진행 전 해당 데이터의 탐색과 이해를 위한 전반적인 사전 탐색EDA 필요성데이터가 표현하는 현상 이해, 내재된 잠재적 문제에 대해 인식 및 해결안 도출 가능문제 정의 단계에서 인지 못한 새로운 양상, 패턴 발견 가능EDA 과정 및 절차분석 목적과 변수 확인: 개별 변수의 이름,특성 확인데이터의 문제성 확인: 결측치/이상치 유무, 분포상의 이상형태 확인데이터의 개별 속성값 분포 확인: 기초통계량을 통..