본문 바로가기

빅데이터분석기사_실기/기초

데이터(CSV, EXCEL, HTML) 불러오고 저장하기

CSV 파일 불러오고 저장하기

  • 불러오기: 데이터변수 = pd.read_csv('파일경로')
  • 저장하기: 데이터변수.to_csv('파일경로')

CSV 파일 불러오기

import pandas as pd

csv_file_path = '/content/drive/MyDrive/data/titanic_train.csv'
csv_data = pd.read_csv(csv_file_path)

csv_data.head()

csv_file_path 변수에 파일경로를 문자열로 저장한 후,

csv_data 라는 데이터 변수에 판다스를 이용해서 해당 경로에 있는 csv파일을 불러온다!

head() 함수를 통해 csv_data 앞부분 데이터들을 확인해본다잉

 

read_csv()의 index_col과 usecols 옵션

  • index_col: 인덱스로 사용할 컬럼을 지정하는 옵션
csv_data1 = pd.read_csv(csv_file_path, index_col = 0)

csv_data1.head() #확인해보기

csv_data1 데이터 변수에 pandas를 이용해서

csv_file_path 경로에 저장된 데이터 파일을 불러옴

이때, 0번째 컬럼값이 인덱스로 지정된다!

 

  • usecols: 사용할(불러올) 컬럼 지정
csv_data1 = pd.read_csv(csv_file_path, index_col = 'PassengerID', 
usecols = ['PassengerID', 'Survived', 'Pclass', 'Age'])

csv_data1.head() #확인해보기

csv_data1 데이터 변수에 pandas를 이용해서

csv_file_path 경로에 있는 데이터 파일을 불러온다.

이때, 'PassengerID' 컬럼은 인덱스로 지정되고

해당 데이터 파일에 있는 컬럼들 중 리스트 안에 명시한 'PassengerID', ..., 'Age' 컬럼만 가져온다.

CSV 파일 저장하기

csv_file_path1 = '/content/drive/MyDrive/data/csv_test.csv'
csv_data1.to_csv(csv_file_path1)

pd.read_csv(csv_file_path1).head() #확인해보기

csv_file_path1 변수에 문자열로 새롭게 저장할 데이터파일의 파일경로와 파일명을 포함해서 저장한다.

to_csv('파일경로')를 사용해서 csv_data1 데이터파일을 저장한다.

 


Excel 엑셀 파일 불러오고 저장하기

  • 불러오기: 데이터변수 = pd.read_excel('파일경로', sheet_name='시트명')
  • 저장하기: 데이터변수.to_excel('파일경로', sheet_name='시트명')

EXCEL 파일 불러오기

excel_file_path = '/content/drive/MyDrive/data/titanic_train.xlsx'
excel_data = pd.read_excel(excel_file_path, sheet_name='시트1')

excel_data.head() #확인해보기

excel_file_path 변수에 불러올 파일명과 경로를 문자열로 저장하고,

pandas의 read_excel('파일경로', sheet_name='시트명')을 이용해 엑셀 파일을 불러온다.

 

read_excel()의 header, index_col, usecols 옵션

  • header: 컬럼명으로 사용할 '행' 지정
excel_data = pd.read_excel(excel_file_path, sheet_name='시트1', header=1)
excel_data.head() #확인해보기

read_excel()을 통해 엑셀파일을 불러오면서 

header=1 옵션을 주면 위치인덱스가 1인 행(즉, 두번째 행)이 컬럼명으로 사용된다.

**header 옵션은 위치인덱스 기준으로 적용된다잉**

 

  • index_col, usecols
excel_data1 = pd.read_excel(excel_file_path, sheet_name='시트1', header=1,
index_col='PassengerID', usecols=['PassengerID', 'Survived', 'Pclass', 'Age'])

excel_data1.head() #확인해보기

excel_data1 데이터 변수에 read_excel()파일을 이용하여 

excel_file_path 경로에 있는 엑셀 데이터의 시트 1에 있는 파일을 불러온다.

이때, 컬럼명으로 사용되는 행은 두번째 행(위치인덱스 1)이고,

전체 파일의 인덱스로 사용되는 컬럼은 PassengerID 컬럼이며,

usecols에 리스트로 묶어 명시한 컬럼들만을 불러온다.

 

EXCEL 파일 저장하기

excel_file_path1 = '/content/drive/MyDrive/data/excel_test.xlsx'
excel_data1.to_excel(excel_file_path1, sheet_name='sheet1')

pd.read_excel(excel_file_path1, sheet_name='sheet1').head() #확인해보기

excel_file_path1 변수에 새롭게 저장할 데이터 파일명을 포함한 경로를 문자열로 저장하고,

excel_data1 데이터 파일을 to_excel('파일경로', sheet_name='지정할 시트명')을 통해

원하는 파일 경로에 원하는 파일명으로 저장한다.

 


웹 html 파일 불러오기

  • 불러오기: pd.read_html('html 경로')
html_path = 'https://finance.naver.com/sise/sise_quant.naver'

quant_data_list = pd.read_html(html_path)

quant_data_list #확인해보기

html_path에 불러올 데이터가 있는 주소를 문자열로 저장하고,

quant_data_list 데이터 변수에 read_html('경로')를 이용하여 데이터를 불러와 저장한다.

 

한글이 깨진다면??

read_html()의 encoding 옵션

: 한글이 깨진다면 encoding = 'utf-8' 이나 encoding = 'cp949' 옵션을 추가하면 됩니다.

quant_data_list = pd.read_html(html_path, encoding = 'cp949')
quant_data_list #확인해보기