[Kaggle] titanic intro
타이타닉
케글에서 전통적인 예제인 타이타닉 문제를 상세한 튜토리얼과 함께 올렸다.
타이타닉 튜토리얼 강좌를 기반으로 타이타닉 데이터에서 생존자를 예측하는 문제를 해결해본다.
목표
타이타닉 침몰은 역사상 가장 악명 높은 난파선 중 하나입니다.
1912 년 4 월 15 일, 그녀의 처녀 항해 중에 빙산과 충돌 한 후 널리 알려지지 않은 RMS 타이타닉이 침몰했다. 불행히도, 모든 사람을위한 구명 보트가 충분하지 않아 2224 명의 승객과 승무원 중 1502 명이 사망했습니다.
생존과 관련된 행운의 요소가 있었지만 일부 사람들은 다른 사람들보다 생존 할 가능성이 더 높은 것으로 보입니다.
이 과제에서 승객 데이터 (예 : 이름, 연령, 성별, 사회 경제적 클래스 등)를 사용하여“어떤 종류의 사람들이 생존 할 가능성이 더 높습니까?”라는 질문에 대한 예측 모델을 작성하도록 요청합니다.
이 대회에서 어떤 데이터를 사용합니까?
이 대회에서는 이름, 나이, 성별, 사회 경제적 클래스 등과 같은 승객 정보를 포함하는 두 개의 유사한 데이터 세트에 액세스 할 수 있습니다. 하나의 데이터 세트는 ‘train.csv’이고 다른 하나는`test.csv ‘입니다. .
Train.csv는 탑승 승객의 하위 집합에 대한 세부 정보를 포함하며 (891은 정확함) 중요한 것은 “지상 진실”이라고도 알려진 생존 여부를 나타냅니다.
test.csv
데이터 셋은 비슷한 정보를 포함하지만 각 승객에 대한 “지상 진실”을 밝히지 않습니다. 이러한 결과를 예측하는 것은 당신의 일입니다.
train.csv 데이터에서 찾은 패턴을 사용하여 다른 418 명의 탑승객 (test.csv에 있음)이 살아남 았는지 예측하십시오.
“데이터”탭 을 확인 하여 데이터 세트를 더 자세히 살펴보십시오. 경쟁 모델을 만들었다 고 생각되면 Kaggle에 제출하여 모델이 다른 Kaggler에 대한 리더 보드의 위치를 확인하십시오.
목표
승객이 타이타닉 침몰에서 살아남 았는지 예측하는 것은 당신의 임무입니다.테스트 세트의 각각에 대해 변수의 0 또는 1 값을 예측해야합니다.
Metric
점수는 정확하게 예측 한 승객의 비율입니다. 이것을 정확도 라고 합니다 .
제출 파일 형식
정확히 418 개의 항목 과 헤더 행이 있는 csv 파일을 제출해야합니다 . 추가 열 (ConsumerId 및 Survived 이외) 또는 행이있는 경우 제출에 오류가 표시됩니다.파일에는 정확히 2 개의 열이 있어야합니다.
- PassengerId (순서대로 정렬 됨)
- 생존 (바이너리 예측 포함 : 1은 생존, 0은 사망)
타이타닉 데이터 사이언스 솔류션
https://www.kaggle.com/juginlee/titanic-data-science-solutions/edit
Workflow stages
데이터 사이언스 솔루션에서 케글의 컴페티션 해결을 위한 워크 플로우는 7단계가 있다.
- 질문과 오류를 정의한다.
- 학습 데이터와 테스트 데이터를 확보한다.
- 데이터를 가공한다.
- 가공한 데이터에서 패턴을 찾는다.
- 모델을 디자인하고 문제를 해결한다.
- Visualize, report, and present the problem solving steps and final solution.
- Supply or submit the results.
Workflow goals
The data science solutions workflow solves for seven major goals.
- Classifying - 분류
- Correlating - 상관 관계
- Converting - 변환
- Completing - 보완 (누락 데이터 보완)
- Correcting - 수정 (왜곡 데이터 제거)
- Creating - 생성 (특성 합성을 통한 신규 특성)
- Charting - 차트