본문 바로가기

빅데이터분석기사_실기/기초

데이터 분포와 통계량

from google.colab import drive
drive.mount('/content/drive')]
import pandas as pd

file_path = '/content/drive/MyDrive/data/titanic_train.csv'
df = pd.read_csv(file_path)

실습 데이터 중비.


분포 및 요약 통계

  • describe(): 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수를 보여줌
df.describe()

result

숫자형으로된 컬럼들의 갯수, 평균, 표준편차, 최솟값, 사분위수, 최댓값

 


대푯값

  • min(): 최솟값
  • max(): 최댓값
  • mean(): 평균
  • median(): 중간값
  • std(): 표준편차
  • var(): 분산
  • quantile(): 분위수
df.min(numerice_only = True)

*numeric_only = True: 숫자형 데이터만 가지고 계산

결과

df.max(numeric_only = True)
#최댓값
df.mean(numeric_only = True)
#평균
df.median(numeric_only = True)
#중간값
df.std(numeric_only = True)
#표준편차
df.var(numeric_only = True)
#분산
df.quantile(0.2, numeric_only = True)
#20퍼센트에 해당하는 값
df.quantile(0.9, numeric_only = True)
#90퍼센트에 해당하는 값

변수의 상관관계 확인하기

  • 상관관계: 두 변수의 관련성
  • 두 변수간의 연관된 정도를 의미 (!= 인과관계)
  • 상관계수 r = 두 변수가 함께 변하는 정도 / 두 변수가 각각 변하는 정도
  • .corr() : 상관계수 계산

출처) fastcampus 데이터분석 masterclass

df.corr(numeric_only=True)

result

두 변수(컬럼) 사이의 상관계수들 계산

절댓값이 1에 가까울수록 강한 상관관계

주대각선은 같은 컬럼끼리의 상관계수이므로 1!

 

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(df.corr(numeric_only=True), annot=True)
plt.show()

결과

시각화를 통해 상관관계 살펴보기

Pclass와 Fare, Pclass와 Survived, Pclass와 Age 간의 음의 상관관계를 확인할 수 있음

 

'빅데이터분석기사_실기 > 기초' 카테고리의 다른 글

crosstab  (0) 2024.06.11
groupby  (0) 2024.06.11
데이터 결합  (0) 2024.06.11
데이터가공: apply, map, 문자열 다루기  (0) 2024.06.11
날짜 데이터  (0) 2024.06.04