목록판다스 (13)
말랑말랑제리스타일
판다스를 사용하다보면 올바른 결과를 얻기위해서 데이터를 가공하거나 추출해낼 필요가 있습니다. 이때 사용 가능한 함수가 바로 판다스의 데이터 집계함수로 엑셀이나 SQL 등에서 사용하는 집계함수와 역할은 동일합니다. 먼저 테스트에 사용할 데이터는 캐글 타이타닉 문제의 test.csv 데이터를 사용하겠습니다. 혹시 올리는 방법을 모르겠으면 아래 글을 참고 바랍니다. https://jerry-style.tistory.com/49 구글 Colab에 외부 파일 올리기 구글 Colab에 외부 데이터를 올리는 방법입니다. Colab이 뭔지는 다들 알고 들어왔을거라고 생각하고 바로 외부파일 올리는 방법 알려드립니다. Colab에서 최초 노트를 생성하고 좌측을 확인해보면 jerry-style.tistory.com 판다스는..
구글 Colab에 외부 데이터를 올리는 방법입니다. Colab이 뭔지는 다들 알고 들어왔을거라고 생각하고 바로 외부파일 올리는 방법 알려드립니다. Colab에서 최초 노트를 생성하고 좌측을 확인해보면 폴더 아이콘이 보입니다. 눌러보면 샘플데이터라는 폴더가 있고 안에 구글 Colab에서 샘플로 제공해주는 여러가지 CSV 파일들이 있습니다. 그 상태에서 샘플데이터 폴더 밑에다가 올릴 파일을 드래그앤 드롭으로 갖다놓기만 하면 끝입니다. 정말 간단하죠. 그다음으로 올린 데이터를 불러오는 방법을 알아야겠죠. 이 부분은 제가 판다스 관련 포스팅에서 쓴적이 있는데 간단하게 다시 설명드리겠습니다. 아래 코드를 써서 실행시켜봅시다.(참고로 구글 Colab에서 구문 실행 단축키는 쉬프트 엔터입니다.) import pand..
우선 앞선 글을 읽지 않고 이 글을 이해하기 힘들 수 있으니 블로그 내에 판다스 인덱싱-데이터 조회 글을 먼저 읽어주시기 바랍니다. 링크는 아래에 첨부합니다. https://jerry-style.tistory.com/47 [Pandas]판다스 인덱싱 - 데이터 조회 Pandas의 DataFrame과 Series에서 데이터를조회하는 작업은 거의 모든 분석에서 일어나는 작업으로 가장 먼저 해야될 작업 중 하나입니다. Native Accesors (접근자) 파이썬의 Native 객체는 데이터를 인덱싱 jerry-style.tistory.com 앞선 글에서 우리는 인덱스와 라벨을 이용해 데이터를 조회하는 방법을 알아보았습니다. 이번에는 인덱스를 조정하는 방법을 알아봅시다. 인덱스 조정 Label-Based se..
Pandas의 DataFrame과 Series에서 데이터를조회하는 작업은 거의 모든 분석에서 일어나는 작업으로 가장 먼저 해야될 작업 중 하나입니다. Native Accesors (접근자) 파이썬의 Native 객체는 데이터를 인덱싱하기 좋습니다. Pandas는 이걸 보다 쉽게 시작할 수 있게 도와줍니다. 지난 글에 이어서 이번에는 또다른 colab의 샘플 데이터를 가져와봅시다. test_df = pd.read_csv("/content/sample_data/california_housing_test.csv") test_df 파이썬에서 우리는 불러온 DataFrame의 속성 값 즉 컬럼을 이용해서 각 객체를 조회해볼 수 있습니다. 여기서 각 속성에 접근하기 위해 '.' 또는 '[]'를 이용해볼 수 있습니..
두번째 판다스 강좌입니다. 강좌라고 하기에 앞서 말한 것과 같이 Kaggle에 있는 과정을 번역하고 약간 가공한 내용이긴 하지만 그래도 개인적으로 많은 도움이 되었기에 계속 이어나가봅니다. 두번째 판다스 강좌는 데이터를 Read 즉 읽어오는 과정입니다. 앞선 강좌에서 Pandas의 대표 객체인 DataFrame과 Series를 생성하는걸 학습했습니다. 그러나 대부분의 데이터 분석에서는 이미 만들어져있는 데이터를 불러와서 사용하게 됩니다. 그중 가장 많이 사용하는 파일 포맷은 CSV 포맷으로 콤마(,)로 구분된 텍스트 문서입니다. 참고로 엑셀에서도 열리지만 데이터 외의 내용은 저장되지 않고 포맷상 콤마(,)를 데이터로 사용할 수 없는 파일 포맷입니다. 실제로 데이터 불러오기 이제 실제로 pd.read_cs..