말랑말랑제리스타일

캐글 타이타닉 문제 데이터셋의 각 필드 내용 본문

프로그래밍/파이썬

캐글 타이타닉 문제 데이터셋의 각 필드 내용

제리제리 2022. 1. 10. 17:15

캐글을 본격적으로 시작해야지!!

하면 다들 타이타닉부터 하시죠

저 역시 타이타닉부터 시작했고

캐글 사이트가 한글 번역은 안돼있다보니 데이터셋의 내용이 뭔지도 잘 모르겠는 부분이 많았습니다

그래서 타이타닉 문제 데이터셋의 각 필드 내용을 번역해봤습니다

1. Survival : 생존여부입니다 1이면 Yes로 생존 0이면 No로 사망

2. PClass : 티켓 클래스로 1:퍼스트 클래스, 2: 세컨 클래스, 3: 서드 클래스로 1에 가까울수록 부유할 가능성이 높죠

3. 성별 : 영어로 이 단어를 써도 되나 모르겟어서 그냥 한글로 쓸게요 아시겠죠 male은 남성 female은 여성입니다

4. Age : 나이죠 이게 은근히 빈칸이 많아서 이걸 채우는것도 기술이라면 기술이겠죠

5.sibsp : 함께 탑승한 형제, 배우자의 총합입니다

6. parch : 함께 탑승한 부모와 자식의 합입니다 sibsp와 합치면 함께 탑승한 전체 가족 수가될거고 둘다 0이면 혼자 탑승했겠죠, sibsp와 차이는 연령대가 비슷한지 많이 다른지 차이일 것 같네요

7. ticket : 티켓번호로 영문 + 숫자 조합입니다 이건 생존율이랑 크게 차이는 없어보입니다

8. fare : 티켓가격입니다 이것도 생존율이랑 크게 관련이 있나싶긴 하네요

9. cabin : 객실 번호입니다 영문 + 숫자인데 마찬가지로 제 생각에는 크게 중요한건 아닌것 같습니다

10. embarked Port of Embarkation : 탑승 항구입니다 C이면 Cherbourg, Q면 Queenstown, S면 Southampton에서 탑승한 승객인데 어쩌면?필요한 요소일 것 같기도 하네요

 

여기까지 타이타닉 문제에 나오는 데이터셋의 필드 해석이고 풀면서 차차 또 올려보겠습니다

반응형
Comments