Notice
Recent Posts
Recent Comments
Link
말랑말랑제리스타일
[Pandas] 판다스 시작하기 데이터 생성해보기 본문
먼저 이 글은 Kaggle의 Course에 있는 판다스 튜토리얼을 참고한 글입니다.
Kaggle 사이트의 튜토리얼은 일단 정말 잘되어있고 따라하면서 배우기 굉장히 좋았습니다.
다만 Kaggle 사이트가 영어로만 되어있다 보니 한글이 더 편한 저같은 분들을 위해 번역과 같단한 의견을 추가해봤습니다.
그럼 지금부터 Pandas를 시작하고 데이터를 생성하고 입출력하는 과정을 시작해봅시다.
먼저 판다스란 가장 유명한 파이썬 데이터 분석 라이브러리입니다.
이 첫번째 과정에서 이미 존재하는 데이터를 이용해 데이터를 생성해보겠습니다.
- 판다스 시작하기
- 판다스를 시작하기 위해서는 일단 Pandas 라이브러리를 import해야겠죠.
- 다른 라이브러리와 마찬가지로 import와 as를 이용해 pandas를 pd라는 명칭으로 import 해줍니다.
import pandas as pd
- 데이터 생성
- 판다스에는 DataFrame과 Series라는 두개의 핵심 객체가 있습니다.
- DataFrame
- DataFrame은 테이블로, 각각의 값을 가진 엔트리를 포함하고 있고 각 엔트리는 row와 column에 의존합니다.
- 예시로 아래와 같이 데이터프레임을 생성해봅시다.(값은 Kaggle 튜토리얼과는 다르게 넣어봤습니다)
pd.DataFrame({'Yes': [10, 20], 'No': [30, 40]})
- 이 코드를 실행하면 아래와 같은 결과가 나옵니다.
- 0,Yes에는 10이 0,No에는 30이 들어간 것을 확인할 수 있습니다.
- 판다스의 DataFrame의 항목은 정수에 국한되지 않습니다. 예시로 다음 코드를 실행해봅시다.
pd.DataFrame({'Number': ['one', 'two'], 'Month': ['Jan', 'Feb']})
- 이 코드를 실행하면 아래와 같은 결과가 나옵니다.
- pd.DataFrame() 생성자를 이용해 이 DataFrame 객체를 생성할 수 있습니다. Dictionary를 생성하는 형태의 문법으로 key에는 column 명을 넣을 수 있고 리스트 형태로 각 엔트리를 입력할 수 있습니다. 이 방식은 가장 보편적인 방식으로 새로운 DataFrame을 생성하는 방식입니다.
- Dictionary-List 생성자는 컬럼 명은 가지지만 Row는 0,1,2,3...으로 증가하는 카운터로 되어있습니다. 그러나 가끔 여기에 라벨을 붙여줘야할 때가 있는데요
- 이런 경우 index라고 하는 DataFrame의 Row 라벨을 이용할 수 있습니다.
pd.DataFrame({'Number': ['one', 'two'], 'Month': ['Jan', 'Feb']}, index = ['1st','2nd'])
- 이런식으로 index에 row 라벨을 명시해주는 경우 아래와 같은 결과를 얻을 수 있습니다.
- Series
- 다음은 판다스의 또다른 핵심객체인 Series입니다. DataFrame이 테이블이라면 Series는 List입니다. 당연히 리스트와 같은 형태로 생성 가능합니다.
pd.Series([1,2,3,4,5])
- 이 코드를 이용해 Series를 생성하면 아래와같은 결과를 얻을 수 있습니다.
- Series는 DataFrame의 단일컬럼과 같은 형태로 사용할 수 있습니다. 그러므로 DataFrame과 같이 index를 사용할 수 있지만 coumn 명은 지정할 수 없고 name이라는 하나의 overall 값을 사용할 수 있습니다.
pd.Series([10,20,30], index = ['2020 Sales','2021 Sales','2022 Sales'], name = 'Product a')
- 위에 나온 코드를 사용해서 index와 name을 지정해주면 아래와 같은 결과가 나옵니다.
- Series와 DataFrame은 관련되어있고 간단하게 생각하면 DataFrame은 Series 여러개를 붙여놓은거라고 생각하시면 이해가 빠를 수 있습니다.
- 다음은 판다스의 또다른 핵심객체인 Series입니다. DataFrame이 테이블이라면 Series는 List입니다. 당연히 리스트와 같은 형태로 생성 가능합니다.
여기까지가 Kaggle에 나와있는 Pandas Tutorial 첫번째 코스의 데이터 생성하기입니다.
영어 내용이 이해가 안되지는 않는데 직역하지 않고 읽는 습관때문에 막상 번역을 해보려니까 시간이 걸리네요.
이 내용은 혼자알기는 너무 좋은 내용이라 다음번에 이어서 계속 번역해 올려보겠습니다.
출처: https://www.kaggle.com/residentmario/creating-reading-and-writing
Creating, Reading and Writing
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
'프로그래밍 > 파이썬' 카테고리의 다른 글
[Pandas]판다스 인덱싱 - 데이터 조회 (0) | 2022.01.17 |
---|---|
[Pandas]판다스 데이터 읽기(Colab 사용) (0) | 2022.01.16 |
캐글 타이타닉 문제 데이터셋의 각 필드 내용 (0) | 2022.01.10 |
오버라이딩과 오버로딩의 차이는?? (0) | 2022.01.06 |
파이썬 기초 파이썬의 자료형(Data Type) (0) | 2022.01.05 |
Comments