말랑말랑제리스타일

[Pandas]판다스 데이터 읽기(Colab 사용) 본문

프로그래밍/파이썬

[Pandas]판다스 데이터 읽기(Colab 사용)

제리제리 2022. 1. 16. 10:17

두번째 판다스 강좌입니다.

강좌라고 하기에 앞서 말한 것과 같이 Kaggle에 있는 과정을 번역하고 약간 가공한 내용이긴 하지만 그래도 개인적으로 많은 도움이 되었기에 계속 이어나가봅니다.

두번째 판다스 강좌는 데이터를 Read 즉 읽어오는 과정입니다.

 

앞선 강좌에서 Pandas의 대표 객체인 DataFrame과 Series를 생성하는걸 학습했습니다.

그러나 대부분의 데이터 분석에서는 이미 만들어져있는 데이터를 불러와서 사용하게 됩니다.

그중 가장 많이 사용하는 파일 포맷은 CSV 포맷으로 콤마(,)로 구분된 텍스트 문서입니다.

참고로 엑셀에서도 열리지만 데이터 외의 내용은 저장되지 않고 포맷상 콤마(,)를 데이터로 사용할 수 없는 파일 포맷입니다.

  1. 실제로 데이터 불러오기
    1. 이제 실제로 pd.read_csv() 함수를 이용해 DataFrame 형태로 데이터를 불러와봅시다. 여기서 저는 코랩을 이용하는데 코랩 데이터 샘플이 있어서 끌어와봤습니다. 좌측의 폴더 그림을 누르면 sample_data 내부에 파일이 들어있는데요 여기 있는 데이터를 끌어오기 위해서는 아래 파이썬 코드를 사용합니다.
      import pandas as pd
      test_df = pd.read_csv("/content/sample_data/mnist_test.csv")​
    2. 여기서 shape 함수로 불러온 파일의 데이터 크기를 체크할 수 있습니다.
      test_df.shape​
    3. 아래와 같이 9999개의 데이터가 785 column으로 되어 있는 DataFrame이 생성되었습니다.
    4. 여기서 head() 명령을 이용해서 최초 5개 row를 출력해볼 수 있는데요.
      test_df.head()​
    5. 제가 불러온 Data는 5개 row로 되어있기 때문에 전부 다 출력이 됩니다.
    6. 여기서 pd.read_csv() 함수는 30개 이상의 매개변수를 사용해서 원하는대로 데이터를 가져올 수 있는데요. 
    7. 이중 index_col이라는 매개변수에 column 번지를 지정해서 index로 사용할 수 있습니다.
      test_df = pd.read_csv("/content/sample_data/mnist_test.csv", index_col=0)
      test_df.head()​
    8. 이렇게 하면 pandas로 읽어온 CSV 파일의 첫번째 column이 index로 사용되는 것을 볼 수 있습니다.

여기까지 Pandas의 read_csv() 함수를 이용해서 CSV 파일을 읽어오는 방법이었습니다.

index_col 이외에도 다양한 매개변수를 사용할 수 있지만 워낙 종류가 다양하다 보니 실제로 적용해가면서 익히는게 좋을 것 같습니다.

 

출처 : https://www.kaggle.com/residentmario/creating-reading-and-writing

 

Creating, Reading and Writing

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

반응형
Comments