竞赛排名波动数据集1963-2021
数据来源:互联网公开数据
标签:竞赛排名,数据波动,机器学习,模型评估,数据科学,数据竞赛,排名变化
数据概述:
本数据集收录了七场Kaggle竞赛的数据,反映了竞赛中公共测试集和私有测试集之间排名和得分的波动情况。具体内容包括:Elo Merchant Category Recommendation、Human Protein Atlas Image Classification、Humpback Whale Identification、Microsoft Malware Prediction、Quora Insincere Questions Classification、TGS Salt Identification Challenge 和 VSB Power Line Fault Detection 竞赛的数据。每场比赛的数据记录了参赛队伍在公共测试集和私有测试集上的排名及得分变化,揭示了模型对公共数据集的过拟合程度。
数据用途概述:
该数据集适用于分析竞赛排名波动,评估模型的泛化能力,识别过拟合问题,并为模型优化提供依据。研究人员可以通过分析排名和得分的变化,了解模型在不同数据集上的表现差异,从而改进模型。此外,数据集也适合用于教育培训,帮助学习者理解竞赛排名机制和模型评估方法。
举例:
以Quora Insincere Questions Classification竞赛为例,数据集中记录了参赛队伍在公共测试集和私有测试集上的排名及得分变化。例如,队伍“The Zoo”在公共测试集上的排名为7,私有测试集上的排名为1,得分分别为0.71123和0.71323,显示出其模型在私有测试集上的表现优于公共测试集。相反,队伍“D.J. Trump”在公共测试集上的排名为65,私有测试集上的排名为1401,得分分别为0.70573和0.000,表明其模型在私有测试集上表现较差,可能存在严重的过拟合问题。