데이터 분포와 통계량

from google.colab import drive
drive.mount('/content/drive')]

import pandas as pd

file_path = '/content/drive/MyDrive/data/titanic_train.csv'
df = pd.read_csv(file_path)

실습 데이터 중비.

분포 및 요약 통계

describe(): 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수를 보여줌

df.describe()

숫자형으로된 컬럼들의 갯수, 평균, 표준편차, 최솟값, 사분위수, 최댓값

대푯값

min(): 최솟값
max(): 최댓값
mean(): 평균
median(): 중간값
std(): 표준편차
var(): 분산
quantile(): 분위수

df.min(numerice_only = True)

*numeric_only = True: 숫자형 데이터만 가지고 계산

df.max(numeric_only = True)
#최댓값
df.mean(numeric_only = True)
#평균
df.median(numeric_only = True)
#중간값
df.std(numeric_only = True)
#표준편차
df.var(numeric_only = True)
#분산
df.quantile(0.2, numeric_only = True)
#20퍼센트에 해당하는 값
df.quantile(0.9, numeric_only = True)
#90퍼센트에 해당하는 값

변수의 상관관계 확인하기

상관관계: 두 변수의 관련성
두 변수간의 연관된 정도를 의미 (!= 인과관계)
상관계수 r = 두 변수가 함께 변하는 정도 / 두 변수가 각각 변하는 정도
.corr() : 상관계수 계산

df.corr(numeric_only=True)

두 변수(컬럼) 사이의 상관계수들 계산

절댓값이 1에 가까울수록 강한 상관관계

주대각선은 같은 컬럼끼리의 상관계수이므로 1!

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(df.corr(numeric_only=True), annot=True)
plt.show()

시각화를 통해 상관관계 살펴보기

Pclass와 Fare, Pclass와 Survived, Pclass와 Age 간의 음의 상관관계를 확인할 수 있음

저작자표시

'빅데이터분석기사_실기 > 기초' 카테고리의 다른 글

crosstab (0)	2024.06.11
groupby (0)	2024.06.11
데이터 결합 (0)	2024.06.11
데이터가공: apply, map, 문자열 다루기 (0)	2024.06.11
날짜 데이터 (0)	2024.06.04

아자아자화이_팅스토리

데이터 분포와 통계량

분포 및 요약 통계

대푯값

변수의 상관관계 확인하기

'빅데이터분석기사_실기 > 기초' 카테고리의 다른 글

티스토리툴바

데이터 분포와 통계량

분포 및 요약 통계

대푯값

변수의 상관관계 확인하기

'빅데이터분석기사_실기 > 기초' 카테고리의 다른 글

'빅데이터분석기사_실기/기초' Related Articles

티스토리툴바