목록빅데이터 (6)
말랑말랑제리스타일
판다스에서 데이터를 필요한 데이터로 가공하거나 매핑하는 작업은 매우 중요합니다. 그리고 판다스에는 유용한 매핑 함수가 두개 있는데요. 바로 map()과 apply() 입니다. 지금부터 판다스의 매핑 방법 두가지를 알아보겠습니다. 1. map map은 apply에 비해 보다 간단한 소스코드로 매핑할 수 있습니다. 간단한 예시로 살펴보겠습니다. test_df_age_mean = test_df.Age.mean() test_df.Age.map(lambda p : p - test_df_age_mean) 이와 같이 파이썬의 람다함수(익명함수) 기능을 이용해서 데이터를 매핑하게 되는데요 간단히 위 소스를 설명하면 test_df_age_mean이라는 변수에 Age 즉 나이의 mean 값(평균값)을 넣고 판다스의 데이터..
판다스를 사용하다보면 올바른 결과를 얻기위해서 데이터를 가공하거나 추출해낼 필요가 있습니다. 이때 사용 가능한 함수가 바로 판다스의 데이터 집계함수로 엑셀이나 SQL 등에서 사용하는 집계함수와 역할은 동일합니다. 먼저 테스트에 사용할 데이터는 캐글 타이타닉 문제의 test.csv 데이터를 사용하겠습니다. 혹시 올리는 방법을 모르겠으면 아래 글을 참고 바랍니다. https://jerry-style.tistory.com/49 구글 Colab에 외부 파일 올리기 구글 Colab에 외부 데이터를 올리는 방법입니다. Colab이 뭔지는 다들 알고 들어왔을거라고 생각하고 바로 외부파일 올리는 방법 알려드립니다. Colab에서 최초 노트를 생성하고 좌측을 확인해보면 jerry-style.tistory.com 판다스는..
우선 앞선 글을 읽지 않고 이 글을 이해하기 힘들 수 있으니 블로그 내에 판다스 인덱싱-데이터 조회 글을 먼저 읽어주시기 바랍니다. 링크는 아래에 첨부합니다. https://jerry-style.tistory.com/47 [Pandas]판다스 인덱싱 - 데이터 조회 Pandas의 DataFrame과 Series에서 데이터를조회하는 작업은 거의 모든 분석에서 일어나는 작업으로 가장 먼저 해야될 작업 중 하나입니다. Native Accesors (접근자) 파이썬의 Native 객체는 데이터를 인덱싱 jerry-style.tistory.com 앞선 글에서 우리는 인덱스와 라벨을 이용해 데이터를 조회하는 방법을 알아보았습니다. 이번에는 인덱스를 조정하는 방법을 알아봅시다. 인덱스 조정 Label-Based se..
Pandas의 DataFrame과 Series에서 데이터를조회하는 작업은 거의 모든 분석에서 일어나는 작업으로 가장 먼저 해야될 작업 중 하나입니다. Native Accesors (접근자) 파이썬의 Native 객체는 데이터를 인덱싱하기 좋습니다. Pandas는 이걸 보다 쉽게 시작할 수 있게 도와줍니다. 지난 글에 이어서 이번에는 또다른 colab의 샘플 데이터를 가져와봅시다. test_df = pd.read_csv("/content/sample_data/california_housing_test.csv") test_df 파이썬에서 우리는 불러온 DataFrame의 속성 값 즉 컬럼을 이용해서 각 객체를 조회해볼 수 있습니다. 여기서 각 속성에 접근하기 위해 '.' 또는 '[]'를 이용해볼 수 있습니..
두번째 판다스 강좌입니다. 강좌라고 하기에 앞서 말한 것과 같이 Kaggle에 있는 과정을 번역하고 약간 가공한 내용이긴 하지만 그래도 개인적으로 많은 도움이 되었기에 계속 이어나가봅니다. 두번째 판다스 강좌는 데이터를 Read 즉 읽어오는 과정입니다. 앞선 강좌에서 Pandas의 대표 객체인 DataFrame과 Series를 생성하는걸 학습했습니다. 그러나 대부분의 데이터 분석에서는 이미 만들어져있는 데이터를 불러와서 사용하게 됩니다. 그중 가장 많이 사용하는 파일 포맷은 CSV 포맷으로 콤마(,)로 구분된 텍스트 문서입니다. 참고로 엑셀에서도 열리지만 데이터 외의 내용은 저장되지 않고 포맷상 콤마(,)를 데이터로 사용할 수 없는 파일 포맷입니다. 실제로 데이터 불러오기 이제 실제로 pd.read_cs..
캐글을 본격적으로 시작해야지!! 하면 다들 타이타닉부터 하시죠 저 역시 타이타닉부터 시작했고 캐글 사이트가 한글 번역은 안돼있다보니 데이터셋의 내용이 뭔지도 잘 모르겠는 부분이 많았습니다 그래서 타이타닉 문제 데이터셋의 각 필드 내용을 번역해봤습니다 1. Survival : 생존여부입니다 1이면 Yes로 생존 0이면 No로 사망 2. PClass : 티켓 클래스로 1:퍼스트 클래스, 2: 세컨 클래스, 3: 서드 클래스로 1에 가까울수록 부유할 가능성이 높죠 3. 성별 : 영어로 이 단어를 써도 되나 모르겟어서 그냥 한글로 쓸게요 아시겠죠 male은 남성 female은 여성입니다 4. Age : 나이죠 이게 은근히 빈칸이 많아서 이걸 채우는것도 기술이라면 기술이겠죠 5.sibsp : 함께 탑승한 형제, ..