2023. 4. 17. 00:19ㆍ프로그래밍/데이터분석
오늘은 파이썬을 통한 데이터분석을 하기 위해 많이 사용되는 Pandas 라이브러리에 대해 다뤄보겠습니다.
오늘은, 간단하게 판다스는 파이썬의 데이터분석을 도와주는 라이브러리 정도라고만 알고계시면 좋을 것 같습니다.
판다스 라이브러리는 다른 라이브러리와 마찬가지로 다음의 코드로 프로젝트에 불러올 수 있습니다.
import pandas as pd
이제 판다스 내부의 데이터 타입들을 살펴보겠습니다.
1. 시리즈 (Series)
1차원 데이터를 (숫자형, 문자열 등) 저장할 수 있는 데이터구조
시리즈 객체 생성
pd.Series([])
example = pd.Series([1,2,3,4])
시리즈객체의 생성은 pd.Series()에 파이썬의 리스트를 인수를 입력하면, 리스트의 원소로 판다스 시리즈 객체를 생성합니다.
코드 두번째 줄에서는, example 이라는 1,2,3,4를 원소로 가진 판다스 시리즈 객체를 생성하였습니다.
판다스 시리즈의 원소에 접근하는 방법은 리스트와 똑같습니다.
example[0] # 결괏 값 : 1
example[1] # 결괏 값 : 2
example[2] # 결괏 값 : 3
example[3] # 결괏 값 : 4
하지만 여기까지만 본다면, 파이썬 리스트와 유의미한 차이가 없습니다.
리스트와 어떤차이가 있을까요? 대표적으로 가장 많이 쓰이는 특징으로, 파이썬 숫자형 인덱스와 별개로, 사용자의 임의로 인덱스를 지정하여, 접근할 수 있다는 점이 있습니다.
example = pd.Series([1, 2, 3, 4], index = ['Jennie','Jude','Daniel','Stark'])
위와 같이, 인덱스를 문자열로 지정하여 시리즈객체를 생성할 수 있고, 아래와 같이 프로그래머가 지정한 인덱스로 해당 원소에 접근 할 수 있습니다. 사용자 지정 인덱스를 사용하더라도, 숫자형 인덱스로도 접근이 가능합니다.
example['Jennie'] # 1
example['Jude'] # 2
example['Daniel'] # 3
example['Stark'] # 4
이외에도 판다스 시리즈는 파이썬 리스트보다 대용량 데이터에 접근할때 "일반적"으로 빠르고, 메모리효율이 좋으며, 데이터 분석에 필요한 여러가지 판다스 내장함수들을 불러 사용할 수 있어 편리합니다.
2. 데이터프레임 (DataFrame)
2차원으로 데이터를 저장 할 수 있는 데이터 구조입니다. 우리가 일상에서 사용하는 엑셀과 유사한 구조를 가지고 있습니다.
데이터 프레임은 다음과 같은 방식으로 생성할 수 있습니다.
import pandas as pd
data = {
'나이' : ['24', '34', '23', '35'],
'이름' : ['Stark', 'Jude', 'Daniel', 'Jennie']
}
df = pd.DataFrame(data) # 1
df =pd.DataFrame(data, index=['호주','미국','영국','캐나다']) # 2
df = pd.DataFrame(data, columns=['이름','나이']) # 3
위코드로 생성된 데이터프레임 객체를 확인해보면 다음과 같습니다.
실제 데이터 프레임 객체를 보니, 정말 엑셀과 유사하죠?
#2는 앞선 시리즈처럼 별도의 인덱스를 지정할 수 있고, #3의 경우는 원본데이터의 키값을 이용하여, 순서를 변경하거나, 일부만 선택하여 객체를 생성하는 것이 가능합니다.
데이터프레임은 엑셀과 유사하단 설명처럼, 판다스 함수를 통해 CSV 혹은 엑셀파일등을 읽어와 바로 데이터 프레임객체를 생성하여, 많은양의 데이터들을 가져와 원하는 데이터를 찾고 조작할 수 있어 정말 편리한 친구 입니다.
오늘은 간단히 데이터프레임과 시리즈에 대해 알아보았습니다.
다음엔 데이터프레임을 활용하는 방법에대해 알아보겠습니다.
'프로그래밍 > 데이터분석' 카테고리의 다른 글
[데이터분석] 판다스를 이용한 파일 입출력 (0) | 2023.04.19 |
---|---|
[데이터분석] 데이터프레임 정보 확인 (0) | 2023.04.19 |
[데이터분석] 데이터프레임 활용 - 데이터 선택 (0) | 2023.04.19 |