from google.colab import drive
drive.mount('/content/drive')]
import pandas as pd
file_path = '/content/drive/MyDrive/data/titanic_train.csv'
df = pd.read_csv(file_path)
실습 데이터 중비.
분포 및 요약 통계
- describe(): 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수를 보여줌
df.describe()
숫자형으로된 컬럼들의 갯수, 평균, 표준편차, 최솟값, 사분위수, 최댓값
대푯값
- min(): 최솟값
- max(): 최댓값
- mean(): 평균
- median(): 중간값
- std(): 표준편차
- var(): 분산
- quantile(): 분위수
df.min(numerice_only = True)
*numeric_only = True: 숫자형 데이터만 가지고 계산
df.max(numeric_only = True)
#최댓값
df.mean(numeric_only = True)
#평균
df.median(numeric_only = True)
#중간값
df.std(numeric_only = True)
#표준편차
df.var(numeric_only = True)
#분산
df.quantile(0.2, numeric_only = True)
#20퍼센트에 해당하는 값
df.quantile(0.9, numeric_only = True)
#90퍼센트에 해당하는 값
변수의 상관관계 확인하기
- 상관관계: 두 변수의 관련성
- 두 변수간의 연관된 정도를 의미 (!= 인과관계)
- 상관계수 r = 두 변수가 함께 변하는 정도 / 두 변수가 각각 변하는 정도
- .corr() : 상관계수 계산
df.corr(numeric_only=True)
두 변수(컬럼) 사이의 상관계수들 계산
절댓값이 1에 가까울수록 강한 상관관계
주대각선은 같은 컬럼끼리의 상관계수이므로 1!
import seaborn as sns
import matplotlib.pyplot as plt
sns.heatmap(df.corr(numeric_only=True), annot=True)
plt.show()
시각화를 통해 상관관계 살펴보기
Pclass와 Fare, Pclass와 Survived, Pclass와 Age 간의 음의 상관관계를 확인할 수 있음
'빅데이터분석기사_실기 > 기초' 카테고리의 다른 글
crosstab (0) | 2024.06.11 |
---|---|
groupby (0) | 2024.06.11 |
데이터 결합 (0) | 2024.06.11 |
데이터가공: apply, map, 문자열 다루기 (0) | 2024.06.11 |
날짜 데이터 (0) | 2024.06.04 |