数据集

泰坦尼克号灾难生存者预测数据集1898-1912-enricomanosperti

泰坦尼克号灾难生存者预测数据集1898-1912-enricomanosperti 数据来源：互联网公开数据标签：泰坦尼克号,生存预测,机器学习,数据特征,家庭关系,乘客信息,数据集

数据概述：本数据集包含泰坦尼克号灾难中乘客的相关信息，用于预测乘客的生存情况。数据集分为训练集（train.csv）和测试集（test.csv）。训练集用于构建机器学习模型，并提供了每位乘客的生存结果（“ground truth”），测试集用于评估模型在未见数据上的表现。此外，数据集还包括gender_submission.csv文件，作为提交文件的示例，假设所有女性乘客均幸存。

数据预处理后，数据被分为preprocessing_train.csv和preprocessing_test.csv，并在此基础上生成了新的特征。

数据字段定义： - survival：生存情况，0表示未幸存，1表示幸存 - sex：性别 - Age：年龄（岁） - sibsp：同行的兄弟姐妹或配偶数量 - parch：同行的父母或子女数量 - ticket：船票号码 - fare：票价 - cabin：船舱编号 - embarked：登船港口（C = 布伦海姆，Q = 皇后镇，S = 南安普顿） - Partners：家庭成员 - Alone：是否独自一人 - People：年龄范围（Infants <= 1, 2 <= Children <= 12, 13 <= Teenagers = 18）

变量说明： - pclass：社会经济地位（SES）的代理，1st = 上层，2nd = 中层，3rd = 下层 - age：年龄为小数表示不足1岁，如果年龄是估计值，形式为xx.5 - sibsp：数据集定义的家庭关系包括兄弟姐妹、配偶（忽略情妇和未婚夫） - parch：数据集定义的家庭关系包括父母、子女（有些儿童仅与保姆同行，因此parch=0）

数据用途概述：该数据集适用于机器学习模型的训练与评估、生存预测研究、乘客特征分析等场景。研究人员可以通过此数据集了解不同的社会经济背景、家庭关系等因素对生存结果的影响；教育机构可以利用此数据进行数据科学和机器学习的教学；公众可以借此机会了解历史灾难中的生存数据分析方法。

数据与资源

versions_20250406093744.zipZIP
0.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.07 MiB
最后更新	2025年4月24日
创建于	2025年4月24日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

泰坦尼克号灾难生存者预测数据集1898-1912-enricomanosperti

数据与资源

附加信息

注册成功！