/ ML

[Kaggle] titanic intro

타이타닉

케글에서 전통적인 예제인 타이타닉 문제를 상세한 튜토리얼과 함께 올렸다.

타이타닉 튜토리얼 강좌를 기반으로 타이타닉 데이터에서 생존자를 예측하는 문제를 해결해본다.

목표

타이타닉 침몰은 역사상 가장 악명 높은 난파선 중 하나입니다.

1912 년 4 월 15 일, 그녀의 처녀 항해 중에 빙산과 충돌 한 후 널리 알려지지 않은 RMS 타이타닉이 침몰했다. 불행히도, 모든 사람을위한 구명 보트가 충분하지 않아 2224 명의 승객과 승무원 중 1502 명이 사망했습니다.

생존과 관련된 행운의 요소가 있었지만 일부 사람들은 다른 사람들보다 생존 할 가능성이 더 높은 것으로 보입니다.

이 과제에서 승객 데이터 (예 : 이름, 연령, 성별, 사회 경제적 클래스 등)를 사용하여“어떤 종류의 사람들이 생존 할 가능성이 더 높습니까?”라는 질문에 대한 예측 모델을 작성하도록 요청합니다.


이 대회에서 어떤 데이터를 사용합니까?

이 대회에서는 이름, 나이, 성별, 사회 경제적 클래스 등과 같은 승객 정보를 포함하는 두 개의 유사한 데이터 세트에 액세스 할 수 있습니다. 하나의 데이터 세트는 ‘train.csv’이고 다른 하나는`test.csv ‘입니다. .

Train.csv는 탑승 승객의 하위 집합에 대한 세부 정보를 포함하며 (891은 정확함) 중요한 것은 “지상 진실”이라고도 알려진 생존 여부를 나타냅니다.

test.csv 데이터 셋은 비슷한 정보를 포함하지만 각 승객에 대한 “지상 진실”을 밝히지 않습니다. 이러한 결과를 예측하는 것은 당신의 일입니다.

train.csv 데이터에서 찾은 패턴을 사용하여 다른 418 명의 탑승객 (test.csv에 있음)이 살아남 았는지 예측하십시오.

“데이터”탭 을 확인 하여 데이터 세트를 더 자세히 살펴보십시오. 경쟁 모델을 만들었다 고 생각되면 Kaggle에 제출하여 모델이 다른 Kaggler에 대한 리더 보드의 위치를 ​​확인하십시오.


목표

승객이 타이타닉 침몰에서 살아남 았는지 예측하는 것은 당신의 임무입니다.테스트 세트의 각각에 대해 변수의 0 또는 1 값을 예측해야합니다.

Metric

점수는 정확하게 예측 한 승객의 비율입니다. 이것을 정확도 라고 합니다 .

제출 파일 형식

정확히 418 개의 항목  헤더 행이 있는 csv 파일을 제출해야합니다 . 추가 열 (ConsumerId 및 Survived 이외) 또는 행이있는 경우 제출에 오류가 표시됩니다.파일에는 정확히 2 개의 열이 있어야합니다.

  • PassengerId (순서대로 정렬 됨)
  • 생존 (바이너리 예측 포함 : 1은 생존, 0은 사망)

타이타닉 데이터 사이언스 솔류션

https://www.kaggle.com/juginlee/titanic-data-science-solutions/edit

Workflow stages

데이터 사이언스 솔루션에서 케글의 컴페티션 해결을 위한 워크 플로우는 7단계가 있다.

  1. 질문과 오류를 정의한다.
  2. 학습 데이터와 테스트 데이터를 확보한다.
  3. 데이터를 가공한다.
  4. 가공한 데이터에서 패턴을 찾는다.
  5. 모델을 디자인하고 문제를 해결한다.
  6. Visualize, report, and present the problem solving steps and final solution.
  7. Supply or submit the results.

Workflow goals

The data science solutions workflow solves for seven major goals.

  • Classifying - 분류
  • Correlating - 상관 관계
  • Converting - 변환
  • Completing - 보완 (누락 데이터 보완)
  • Correcting - 수정 (왜곡 데이터 제거)
  • Creating - 생성 (특성 합성을 통한 신규 특성)
  • Charting - 차트