泰坦尼克号灾难生存者预测数据集1898-1912-enricomanosperti
数据来源:互联网公开数据
标签:泰坦尼克号,生存预测,机器学习,数据特征,家庭关系,乘客信息,数据集
数据概述:
本数据集包含泰坦尼克号灾难中乘客的相关信息,用于预测乘客的生存情况。数据集分为训练集(train.csv)和测试集(test.csv)。训练集用于构建机器学习模型,并提供了每位乘客的生存结果(“ground truth”),测试集用于评估模型在未见数据上的表现。此外,数据集还包括gender_submission.csv文件,作为提交文件的示例,假设所有女性乘客均幸存。
数据预处理后,数据被分为preprocessing_train.csv和preprocessing_test.csv,并在此基础上生成了新的特征。
数据字段定义:
- survival:生存情况,0表示未幸存,1表示幸存
- sex:性别
- Age:年龄(岁)
- sibsp:同行的兄弟姐妹或配偶数量
- parch:同行的父母或子女数量
- ticket:船票号码
- fare:票价
- cabin:船舱编号
- embarked:登船港口(C = 布伦海姆,Q = 皇后镇,S = 南安普顿)
- Partners:家庭成员
- Alone:是否独自一人
- People:年龄范围(Infants <= 1, 2 <= Children <= 12, 13 <= Teenagers = 18)
变量说明:
- pclass:社会经济地位(SES)的代理,1st = 上层,2nd = 中层,3rd = 下层
- age:年龄为小数表示不足1岁,如果年龄是估计值,形式为xx.5
- sibsp:数据集定义的家庭关系包括兄弟姐妹、配偶(忽略情妇和未婚夫)
- parch:数据集定义的家庭关系包括父母、子女(有些儿童仅与保姆同行,因此parch=0)
数据用途概述:
该数据集适用于机器学习模型的训练与评估、生存预测研究、乘客特征分析等场景。研究人员可以通过此数据集了解不同的社会经济背景、家庭关系等因素对生存结果的影响;教育机构可以利用此数据进行数据科学和机器学习的教学;公众可以借此机会了解历史灾难中的生存数据分析方法。