말랑말랑제리스타일

[Pandas]판다스 데이터 집계함수(Summary Function) 본문

프로그래밍/파이썬

[Pandas]판다스 데이터 집계함수(Summary Function)

제리제리 2022. 1. 19. 12:30

판다스를 사용하다보면 올바른 결과를 얻기위해서 데이터를 가공하거나 추출해낼 필요가 있습니다.

이때 사용 가능한 함수가 바로 판다스의 데이터 집계함수로 엑셀이나 SQL 등에서 사용하는 집계함수와 역할은 동일합니다.

먼저 테스트에 사용할 데이터는 캐글 타이타닉 문제의 test.csv 데이터를 사용하겠습니다.

혹시 올리는 방법을 모르겠으면 아래 글을 참고 바랍니다.

https://jerry-style.tistory.com/49

 

구글 Colab에 외부 파일 올리기

구글 Colab에 외부 데이터를 올리는 방법입니다. Colab이 뭔지는 다들 알고 들어왔을거라고 생각하고 바로 외부파일 올리는 방법 알려드립니다. Colab에서 최초 노트를 생성하고 좌측을 확인해보면

jerry-style.tistory.com

 

판다스는 다양한 집계함수를 제공합니다.

먼저 describe() 함수를 사용해보겠습니다.

  • describe()
    • 판다스의 describe() 함수의 경우 컬럼의 데이터 형에 크게 의존합니다. 숫자형과 문자형에 describe() 집계함수를 사용해보겠습니다.
    • Pandas DataFrame의 숫자형 데이터에 Describe() 함수를 사용한 경우
      test_df.Age.describe()​

      결과를 보면 알겠지만 Pandas의 집계함수 중 describe() 함수는 매우 다양한 수학적 정보를 제공합니다.

    • 문자형 데이터에 describe() 함수를 적용한 예시도 한번 보겠습니다.
      test_df.Name.describe()​
      숫자형 데이터에 describe 집계함수를 적용했을 때와는 다른 결과입니다.
      이렇듯 판다스의 Describe 함수는 적용되는 데이터 타입에 따라 다른 결과를 보여줍니다.

  • 기타 집계함수
    • 판다스의 Describe 집계함수가 워낙 강력하고 다양한 정보를 제공해주기 때문에 그 외의 함수를 기타 집계함수로 분류해봤습니다.
    • mean() 함수
      • describe 결과값의 mean 값 만을 리턴하는 함수입니다.
        test_df.Age.mean()​
        이 결과는 파이썬 데이터타입이 숫자형인 변수에 삽입할 수 있습니다.
        count,std,min, max 등도마찬가지입니다.
    • unique() 함수
      • 해당 필드의 distinct(유일한) 값을 보여줍니다. 
        test_df.SibSp.unique()​
         
        판다스의 unique() 등 문자열에 적용 가능한 몇몇 함수는 숫자형 데이터에도 적용 가능합니다. 
    • value_counts() 함수
      • 판다스 의 unique 함수의 확장 개념으로 해당 값이 몇번씩 나오는지 출력해줍니다.
        test_df.SibSp.value_counts()​

판다스에서는 이 외에도 상당히 다양한 집계함수를 제공합니다.

판다스 라이브러리를 사용하는 가장 큰 이유중 하나라고 볼 수 있겠죠.

 

반응형
Comments