泰坦尼克号灾难生存者预测数据集1898-1912-enricomanosperti

泰坦尼克号灾难生存者预测数据集1898-1912-enricomanosperti 数据来源:互联网公开数据 标签:泰坦尼克号,生存预测,机器学习,数据特征,家庭关系,乘客信息,数据集

数据概述: 本数据集包含泰坦尼克号灾难中乘客的相关信息,用于预测乘客的生存情况。数据集分为训练集(train.csv)和测试集(test.csv)。训练集用于构建机器学习模型,并提供了每位乘客的生存结果(“ground truth”),测试集用于评估模型在未见数据上的表现。此外,数据集还包括gender_submission.csv文件,作为提交文件的示例,假设所有女性乘客均幸存。

数据预处理后,数据被分为preprocessing_train.csv和preprocessing_test.csv,并在此基础上生成了新的特征。

数据字段定义: - survival:生存情况,0表示未幸存,1表示幸存 - sex:性别 - Age:年龄(岁) - sibsp:同行的兄弟姐妹或配偶数量 - parch:同行的父母或子女数量 - ticket:船票号码 - fare:票价 - cabin:船舱编号 - embarked:登船港口(C = 布伦海姆,Q = 皇后镇,S = 南安普顿) - Partners:家庭成员 - Alone:是否独自一人 - People:年龄范围(Infants <= 1, 2 <= Children <= 12, 13 <= Teenagers = 18)

变量说明: - pclass:社会经济地位(SES)的代理,1st = 上层,2nd = 中层,3rd = 下层 - age:年龄为小数表示不足1岁,如果年龄是估计值,形式为xx.5 - sibsp:数据集定义的家庭关系包括兄弟姐妹、配偶(忽略情妇和未婚夫) - parch:数据集定义的家庭关系包括父母、子女(有些儿童仅与保姆同行,因此parch=0)

数据用途概述: 该数据集适用于机器学习模型的训练与评估、生存预测研究、乘客特征分析等场景。研究人员可以通过此数据集了解不同的社会经济背景、家庭关系等因素对生存结果的影响;教育机构可以利用此数据进行数据科学和机器学习的教学;公众可以借此机会了解历史灾难中的生存数据分析方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.07 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。