데이터 구조 변경: stack, unstack, melt
stack, unstackstack: 컬럼을 인덱스로 unstack: 인덱스를 컬럼으로 (stack의 반대)from google.colab import drivedrive.mount('/content/drive')import pandas as pdfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path)실습데이터 중비pivot = pd.pivot_table(df, index=['Sex','Pclass'], values = ['Survived','Fare'], aggfunc = ['mean','median','sum'])pivot.stack(0)첫번째 레벨(0)의 컬럼을 인덱스로 바꿈(위에서부터 레벨 0 ) p..
피벗테이블
데이터를 행과 열로 그룹화하여 (=crosstab) 요약통계를 계산!pd.pivot_table(데이터명, index = '행 기준', columns = '열 기준', values='값에 적용될 컬럼', aggfunc = '집계함수')from google.colab import drivedrive.mount('/content/drive')import pandas as pdfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path) 실습데이터 준비단일인덱스, 단일 컬럼, 단일 값 피벗테이블pd.pivot_table(df, index='Sex', columns = 'Pclass', values='Survived', ..
데이터 분포와 통계량
from google.colab import drivedrive.mount('/content/drive')]import pandas as pdfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path)실습 데이터 중비.분포 및 요약 통계describe(): 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수를 보여줌df.describe()숫자형으로된 컬럼들의 갯수, 평균, 표준편차, 최솟값, 사분위수, 최댓값 대푯값min(): 최솟값max(): 최댓값mean(): 평균median(): 중간값std(): 표준편차var(): 분산quantile(): 분위수df.min(numerice_only = Tru..
데이터 결합
두 개의 데이터를 특정 컬럼을 기준으로 결함결합 방법pd.merge(데이터1, 데이터2, on='기준 컬럼', how = '결합방법') import pandas as pdcustomer = pd.DataFrame({'id': [i for i in range(1,7)], 'name' : ['민준', '서연', '서준', '도현', '지윤', '채원'] 'age' : [15,30,40,20,23,31]})orders = pd.DataFrame({'id' : [1,1,2,3,3,4,5,7,7,7], 'item' : ['사과','체리','바나나','사과','바나나','바나나','체리','사과','체리','바나나'], ..