IEEE论文投稿与用户身份识别模型预测数据集-kyakovlev
数据来源:互联网公开数据
标签:IEEE, 论文投稿, 用户身份识别, 机器学习, 模型预测, CatBoost, LGBM, XGBoost, 神经网络, 特征工程, 模型融合
数据概述:
本数据集包含多个基于IEEE论文投稿场景的用户身份识别模型预测结果,以及用于模型训练和评估的用户身份标识(UID)信息。数据集涵盖了单模型预测结果、不同特征集下的模型预测结果、元模型预测结果,以及经过后处理的最终模型预测结果。
数据集具体组成如下:
-
单模型预测结果:
- catboost_best_single.csv: CatBoost最佳单模型预测结果。
- lgbm_best_single.csv: LightGBM最佳单模型预测结果。
- xgb_best_single.csv: XGBoost最佳单模型预测结果。
- NN_best_single.csv: 神经网络最佳单模型预测结果。
-
不同特征集下的模型预测结果:
- catboost_no_identity.csv: CatBoost模型在剔除身份相关特征后的预测结果。
- xgb_fallback_model.csv: XGBoost备用模型预测结果。
- lgbm_no_identity.csv: LightGBM模型在剔除身份相关特征后的预测结果。
-
元模型预测结果:
- lgbm_meta_model.csv: LightGBM元模型(基于CatBoost和XGBoost预测结果)的预测结果。
-
最终模型预测结果:
- final_model_blend.csv: 经过后处理的最终模型融合预测结果。
- test_model_blend.csv: 测试集上经过后处理的模型融合预测结果。
-
用户身份标识(UID):
- test_uids_full_v3.csv: 测试集完整UID信息。
- train_uids_full_v3.csv: 训练集完整UID信息。
- uids_v1_no_multiuid_cleaning.csv: UID版本1,未进行多UID清洗。
- uids_v4_no_multiuid_cleaning..csv: UID版本4,未进行多UID清洗。
数据用途概述:
该数据集适用于模型性能评估、模型融合策略研究、特征重要性分析、用户行为模式分析等多种场景。研究人员可以利用这些数据比较不同模型的预测效果,探索模型融合的优势,分析不同特征对预测结果的影响,从而优化用户身份识别模型。此外,该数据集也为机器学习实践提供了宝贵的案例,有助于学习和理解如何在实际场景中应用不同的机器学习算法和模型集成方法。