[데이터분석] 판다스를 이용한 파일 입출력

2023. 4. 19. 23:18프로그래밍/데이터분석

반응형

안녕하세요, 오늘은 판다스를 이용하여, 데이터를 읽어오고, 저장하는 방법에 대해 알아보겠습니다.

import pandas as pd
example_data = {'Name': ['Daniel', 'Jude', 'Tim', 'Mac', 'Philip', 'Jordan', 'Bikram', 'Nancy'],
 '대학': ['ANU', 'USYD', 'UC', 'UCLA', 'ANU', 'SNU', 'KAIST', 'POSTECH'],
 '키': [180, 184, 168, 187, 188, 202, 188, 190],
 '몸무게': [95, 80, 91, 73, 66, 85, 70, 95],
 '용돈': [85, 30, 80, 60, 35, 100, 65, 85],
 '학점': [4.5, 3.8, 3.3, 2.5, 1.5, 4.0, 4.5, 3.9],
 '학과': ['컴퓨터과', '수학과', '국문과', '자율전공학과', '', '영문과', '경제학과', '의예과']}
df = pd.DataFrame(example_data, index = ['1번','2번','3번','4번','5번','6번','7번','8번'])
df.index.name = '학번'
df

오늘의 예제 코드입니다.

 

Pandas 는 데이터프레임을 csv, xlsx, txt 등의 파일형태로 저장하거나, 이러한 파일들에서 정보를 가져와 데이터프레임 객체를 바로 생성하는 것이 가능하다는 특징이 있습니다.

 

1. 저장하기

df.to_csv('file_name.csv') # 데이터프레임을 CSV파일로 저장
df.to_csv('file_name.txt', sep='\t') # 데이터프레임의 값들을 tab으로 txt 파일로 저장 (tsv)
df.to_excel('file_name.xlsx') # 데이터프레임을 엑셀파일로 저장

데이터프레임을 간단하게 파일형태로 저장할 수 있습니다. to_csv의 sep 의 기본값이 ',' 인점 기억하고 넘어가시면 좋을 거 같습니다.

만약 한글이 포함된 데이터를 저장하신다면, " encoding = 'utf-8-sig' " 속성을 함수 내부에 추가하시면 한글깨짐 없이 파일을 저장 할 수 있습니다!

 

2.불러오기

df = pd.read_csv('file_name.csv') # csv파일에 저장된정보로 데이터프레임 객체 생성
df = pd.read_csv('file_name.csv', skiprows = number) #number 수만큼의 행을 제외하고 파일 불러옴 
df = pd.read_csv('file_name.csv', nrows=number) # number수만큼 행을 불러옴

불러오는 것도 꽤 간단하게 파일을 불러와 데이터프레임 객체를 생성할 수 있습니다. skiprows 와 nrows 속성들을 잘 사용하면 첫행에 단위같은것이 들어있는경우 생략해서 적절한 데이터프레임을 생성 할 수 있습니다.

 

다음엔 데이터 프레임에 저장된 데이터를 가공하는법에 대해 알아보겠습니다.

반응형