말랑말랑제리스타일

[Pandas] 판다스 시작하기 데이터 생성해보기 본문

프로그래밍/파이썬

[Pandas] 판다스 시작하기 데이터 생성해보기

제리제리 2022. 1. 15. 00:59

먼저 이 글은 Kaggle의 Course에 있는 판다스 튜토리얼을 참고한 글입니다.

Kaggle 사이트의 튜토리얼은 일단 정말 잘되어있고 따라하면서 배우기 굉장히 좋았습니다.

다만 Kaggle 사이트가 영어로만 되어있다 보니 한글이 더 편한 저같은 분들을 위해 번역과 같단한 의견을 추가해봤습니다.

그럼 지금부터 Pandas를 시작하고 데이터를 생성하고 입출력하는 과정을 시작해봅시다.

 

먼저 판다스란 가장 유명한 파이썬 데이터 분석 라이브러리입니다.

이 첫번째 과정에서 이미 존재하는 데이터를 이용해 데이터를 생성해보겠습니다.

  1. 판다스 시작하기
    • 판다스를 시작하기 위해서는 일단 Pandas 라이브러리를 import해야겠죠.
    • 다른 라이브러리와 마찬가지로 import와 as를 이용해 pandas를 pd라는 명칭으로 import 해줍니다. 
    • import pandas as pd​
  2. 데이터 생성
    • 판다스에는 DataFrame과 Series라는 두개의 핵심 객체가 있습니다.
    • DataFrame
      • DataFrame은 테이블로, 각각의 값을 가진 엔트리를 포함하고 있고 각 엔트리는 row와 column에 의존합니다.
      • 예시로 아래와 같이 데이터프레임을 생성해봅시다.(값은 Kaggle 튜토리얼과는 다르게 넣어봤습니다)
        pd.DataFrame({'Yes': [10, 20], 'No': [30, 40]})​
      • 이 코드를 실행하면 아래와 같은 결과가 나옵니다.
      • 0,Yes에는 10이 0,No에는 30이 들어간 것을 확인할 수 있습니다.
      • 판다스의 DataFrame의 항목은 정수에 국한되지 않습니다. 예시로 다음 코드를 실행해봅시다.
        pd.DataFrame({'Number': ['one', 'two'], 'Month': ['Jan', 'Feb']})​
      • 이 코드를 실행하면 아래와 같은 결과가 나옵니다.
      • pd.DataFrame() 생성자를 이용해 이 DataFrame 객체를 생성할 수 있습니다. Dictionary를 생성하는 형태의 문법으로 key에는 column 명을 넣을 수 있고 리스트 형태로 각 엔트리를 입력할 수 있습니다. 이 방식은 가장 보편적인 방식으로 새로운 DataFrame을 생성하는 방식입니다.
      • Dictionary-List 생성자는 컬럼 명은 가지지만 Row는 0,1,2,3...으로 증가하는 카운터로 되어있습니다. 그러나 가끔 여기에 라벨을 붙여줘야할 때가 있는데요
      • 이런 경우 index라고 하는 DataFrame의 Row 라벨을 이용할 수 있습니다.
        pd.DataFrame({'Number': ['one', 'two'], 'Month': ['Jan', 'Feb']},
                     index = ['1st','2nd'])​
      • 이런식으로 index에 row 라벨을 명시해주는 경우 아래와 같은 결과를 얻을 수 있습니다.
    • Series
      • 다음은 판다스의 또다른 핵심객체인 Series입니다. DataFrame이 테이블이라면 Series는 List입니다. 당연히 리스트와 같은 형태로 생성 가능합니다.
        pd.Series([1,2,3,4,5])​
      • 이 코드를 이용해 Series를 생성하면 아래와같은 결과를 얻을 수 있습니다.
      • Series는 DataFrame의 단일컬럼과 같은 형태로 사용할 수 있습니다. 그러므로 DataFrame과 같이 index를 사용할 수 있지만 coumn 명은 지정할 수 없고 name이라는 하나의 overall 값을 사용할 수 있습니다.
        pd.Series([10,20,30],
                  index = ['2020 Sales','2021 Sales','2022 Sales'],
                  name = 'Product a')​
      • 위에 나온 코드를 사용해서 index와 name을 지정해주면 아래와 같은 결과가 나옵니다.
      • Series와 DataFrame은 관련되어있고 간단하게 생각하면 DataFrame은 Series 여러개를 붙여놓은거라고 생각하시면 이해가 빠를 수 있습니다.

여기까지가 Kaggle에 나와있는 Pandas Tutorial 첫번째 코스의 데이터 생성하기입니다.

영어 내용이 이해가 안되지는 않는데 직역하지 않고 읽는 습관때문에 막상 번역을 해보려니까 시간이 걸리네요.

이 내용은 혼자알기는 너무 좋은 내용이라  다음번에 이어서 계속 번역해 올려보겠습니다.

출처: https://www.kaggle.com/residentmario/creating-reading-and-writing

 

Creating, Reading and Writing

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

Comments