목록DataFrame (5)
말랑말랑제리스타일

Pandas dataframe으로 작업을 하다 보면 apply로 lambda 함수를 사용하는 경우가 많은데요사소한 실수로 인해 Key 에러가 발생하는 상황이 있습니다저도 이것 때문에 한참 헤매다가 결국 원인을 찾고 허무했는데요정말 사소한 실수때문에 발생하는 dataframe.apply 함수에서 발생하는 Key 에러 원인과 확인 사항 알려드립니다Pandas apply lambda 함수에서 Key 에러 발생한 원인Pandas apply lambda 함수에서 Key 에러가 발생하고 분명 해당 칼럼이 있는데 Key가 없다고 에러가 나서 많이 답답했는데요알고 보니 별거 아닌 문제였습니다뒤에 axis를 붙여줘야했던건데요import pandas as pdtest_df = pd.DataFrame({ 'CODE':..

두개의 DataFrame을 합치는 방법은 크게 두가지입니다. 단순히 row에 붙여서 합치는 concat 함수와 인덱스 별로 붙여주는 join() 합수입니다. 1. 두개의 DataFrame 생성 바로 코드로 설명하기에 앞서 Pandas 기능을 이용해 join을 하기에 유의미한 데이터를 만들어보겠습니다. train_df = pd.read_csv("/content/train.csv") train_df['AgeBand'] = train_df.Age.map(lambda p: p//10) train_df_p1 = train_df.loc[train_df.Pclass == 1].groupby(['Embarked','AgeBand']).apply(lambda p : p.loc[p.PassengerId.idxmax()])..

RDBMS를 다뤄봤다면 누구나 알고있을 Union all 집합연산과 Join 기능이 판다스의 DataFrame에도 있습니다. 이번 장에서는 먼저 Union All 기능과 동일한 pandas.concat() 함수로 두개의 DataFrame을 합쳐보겠습니다. test_df = pd.read_csv("/content/test.csv") test_df_p1 = test_df.loc[test_df.Pclass == 1] test_df_p2 = test_df.loc[test_df.Pclass == 2] test_df_p3 = test_df.loc[test_df.Pclass == 3] # 0.DataFrame 생성 test_df_p12 = pd.concat([test_df_p1,test_df_p2]) # 1.p1과 ..

Pandas에서 DataFrame을 이용한 작업을 하다 보면 컬럼 명이나 인덱스를 수정해야할 때가 있습니다. 그럴 때 rename() 또는 rename_axis() 함수를 이용해볼 수 있습니다. test_df = pd.read_csv("/content/test.csv") # 0.DataFrame 생성 test_df=test_df.rename(columns={'Age':'AgeBand'}) # 1. 컬럼명 수정 test_df=test_df.rename(index={0:'1st', 1:'2nd',2:'3rd'}) # 2.index 수정 test_df=test_df.rename_axis("id_no",axis = 'rows').rename_axis("field",axis = 'columns') # 3. 컬럼과..
Pandas의 DataFrame은 Index와 여러개의 컬럼으로 구성되어있습니다. 여기서 각각의 컬럼은 서로 다른 데이터타입을 가질 수 있습니다. 이 각각의 DataFrame 컬럼이 어떤 데이터타입을 사용하고있는지 확인하기 위해서는 dtype이라는 속성을 이용할 수 있습니다. import pandas as pd test_df = pd.read_csv("/content/test.csv") test_df.Pclass.dtype test_df.dtypes 3번째 줄에 있는 것과 같이 DataFrame.컬럼.dtype이라는 속성값을 이용해서 이 컬럼 하나의 데이터 타입을 확인할 수 있습니다. 마찬가지로 DataFrame.dtypes 속성을 이용하면 해당 DataFrame의 전체 컬럼의 데이터타입을 Series ..