본문 바로가기

전체 글

(90)

날짜 데이터 import pandas as pdfile_path = '/content/drive/MyDrive/data/temperatures.csv'data = pd.read_csv(file_path)df = data.copy()#실습데이터를 준비해보아용~df.info()But~ Date 컬럼의 데이터타입이 날짜형이 아닌 문자열임을 확인할 수 있당! 문자형을 날짜형으로 변경하기날짜 계산을 위해 날짜형으로 변경pd.to_datetime(데이터변수['컬럼명'], format = '날짜형식'날짜형식%Y: 4자리 연도%y: 2자리 연도%m: 월%d: 일%H: 시간%M: 분%S: 초df['Date1'] = pd.to_datetime(df['Date'], format = '%Y-%m-%d')df의 Date 컬럼을 날짜형 ..

데이터 타입 변환하기 import pandas as pdfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path)#실습에 사용할 데이터셋을 구글드라이브에서 가져올게용~데이터 타입 확인하기.dtypes: 각 컬럼의 데이터 타입을 시리즈 형태로 출력합니다.df.dtypes* int: 정수, object: 문자열, float: 실수특정 데이터타입을 가진 데이터만 추출: 데이터명.select_dtypes('데이터타입') df.select_dtypes('int')int(정수)에 해당하는 데이터만 불러오기df.select_dtypes('object')문자열에 해당하는 데이터만 불러오기데이터타입 변환하기데이터명['컬럼명'].astype(변환할..

결측값 처리하기 import pandas as pdfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path)#실습에 사용할 데이터셋을 구글드라이브로부터 가져올게욤결측값 확인하기isna(): 결측값을 True로 반환notna(): 결측값을 False로 반환df.info()Non-Null Count는 각 컬럼 별 Null값이 아닌 행들의 개수를 보여줌전체가 891행이라는 정보를 통해 age, cabin, embarked 컬럼에 결측치(null)가 존재함을 알 수 있당.df.isna().isna()는 결측값인 경우 True를 반환하고, 결측치가 아닌 경우 False를 반환df.isna().sum().isna().sum()은 각 컬..

인덱스, 행, 그리고 열 import pandas as pdfile_path = '/content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path) 인덱스인덱스란 데이터프레임 행들의 이름df.head()#데이터프레임 df를 먼저 확인해봅시당df에서 인덱스는 0,1,2,...df.index# df의 인덱스에 대한 정보를 확인해봐용0에서 시작(start=0)해서 하나씩 증가(step=1)하며 890(strop=891)까지 있다는 뜻: 총 891개의 행인덱스 변경인덱스 일부를 바꿀 때: 데이터명.rename({기존인덱스1: 바꿀 인덱스1, 기존인덱스2: 바꿀 인덱스2, ...})인덱스 전체를 바꿀 때: 데이터명.index = 바꿀 인덱스 리스트df1= df.copy()..

조건에 맞는 데이터 추출하기! import pandas as pdfile_path = 'content/drive/MyDrive/data/titanic_train.csv'df = pd.read_csv(file_path)df #확인해보기자 먼저 판다스 피디로 임포트 해주고파일경로 따로 변수에 저장해서 read_csv 함수 이용해서 titanic_train.csv 파일 불러와줍니다.행(row) 조회하나의 행 조회: 데이터프레임명[조회 할 인덱스:인덱스+1]여러 개의 행 조회: 데이터프레임명[조회 할 시작인덱스:끝인덱스+1]df[:10]인덱스 0(처음 행)부터 인덱스 9까지 총 10개의 행 조회df[3:7]인덱스 3부터 인덱스 6까지 총 4개의 행 조회df[3:4]인덱스 3번 행 한 개만 조회열(column) 조회하나의 열 조회: 데이터프레..

데이터(CSV, EXCEL, HTML) 불러오고 저장하기 CSV 파일 불러오고 저장하기불러오기: 데이터변수 = pd.read_csv('파일경로')저장하기: 데이터변수.to_csv('파일경로')CSV 파일 불러오기import pandas as pdcsv_file_path = '/content/drive/MyDrive/data/titanic_train.csv'csv_data = pd.read_csv(csv_file_path)csv_data.head()csv_file_path 변수에 파일경로를 문자열로 저장한 후,csv_data 라는 데이터 변수에 판다스를 이용해서 해당 경로에 있는 csv파일을 불러온다!head() 함수를 통해 csv_data 앞부분 데이터들을 확인해본다잉 read_csv()의 index_col과 usecols 옵션index_col: 인덱스로 사용..

외부 데이터 파일을 불러와 구글 코랩(colab)에서 이용하기 1. 데이터 파일 업로드: 구글 드라이브 (Google Drive)의 Colab Notebooks 폴더 안에 데이터 파일(csv, xlsx)을 업로드 2. 코랩 Colab에서 다음 코드를 입력하고 실행from google.colab import drivedrive.mount('/content/drive') 3. 구글 계정 확인**구글 코랩과 구글 드라이브는 동일한 구글 계정을 사용해야함** 4. 성공적으로 마운트 되었다는 메시지가 표시됨 5. 코랩 좌측의 파일을 클릭하면, 마운트 된 구글 드라이브의 내용을 볼 수 있음 6. 데이터 파일이 위치한 폴더의 경로: "/content/drive/MyDrive/Colab Notebooks/"+ 해당 파일을 마우스 오른쪽 클릭하면 파일의 경로를 복사할 수 있음 (혹..

판다스(Pandas) 시리즈 & 데이터프레임 - 판다스(Pandas): 행과 열로 이루어진 대용량 데이터를 쉽게 처리하도록 지원하는 파이썬 라이브러리- 데이터 분석에서 변수가 1개일 경우 => 시리즈, 변수가 2개 이상일 경우 => 데이터 프레임 사용 [Pandas 패키지의 추가]import pandas as pd#pandas 패키지를 불러와서 pd라는 이름으로 사용 1. 시리즈(Series): 1차원 배열 형태 구조, 파이썬 딕셔너리와 유사2. 데이터 프레임(Data Frame): 2차원 테이블 형태 구조, 여러 개의 열(컬럼)과 행(로우)를 가지고, 각 열은 서로 다른 자료형 가능출처)https://velog.io/@nata0919/Serise와-DataFrame-그림으로-정리하기[시리즈(Series)]1. 시리즈 객체 생성sr1 = pd.Se..

이전 1 ··· 8 9 10 11 12 다음

티스토리툴바