分类特征编码挑战2数据集-2021-tommyngx

分类特征编码挑战2数据集-2021-tommyngx 数据来源:互联网公开数据 标签:编码策略,分类特征,机器学习,数据科学,特征工程,缺失值,特征交互,二元分类

数据概述: 本数据集来自“分类特征编码挑战2”竞赛,旨在探索各种编码策略。数据集包含二元特征(bin_)、名义特征(nom_)、有序特征(ord_*)以及潜在的周期性特征(日和月)。字符串有序特征ord_{3-5}按字符串.ascii_letters的字典顺序排列。与第一个分类特征编码挑战不同,本次挑战的数据包含缺失值和特征交互。

数据集分为两个主要文件: - train.csv:训练集,包含用于模型训练的数据。 - test.csv:测试集,需要在此数据上进行预测。 - sample_submission.csv:提交文件的示例格式,包含预期的预测结果格式。

数据用途概述: 该数据集适用于机器学习和数据科学领域的特征工程研究,特别是分类特征的编码策略探索。研究者可以使用该数据集测试和比较不同的特征编码方法,处理缺失值和特征交互。此外,该数据集也适合用于教育培训,帮助学习者理解分类特征处理的基本概念和策略。通过参与竞赛,数据科学社区可以探索如何提高分类模型的性能,特别是在处理复杂特征集时的有效方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 40.37 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。