在线编程评估与推荐模型训练数据集
数据来源:互联网公开数据
标签:推荐系统,在线编程,用户行为,问题难度,编程竞赛,机器学习,数据分析
数据概述:
本数据集源自一个在线判题平台的实际交互记录,旨在支持构建一个推荐引擎,用于预测用户解题所需尝试次数范围,并据此推荐适合其当前水平的问题。数据包括用户历史提交记录、用户属性信息、题目特征等,适用于个性化推荐系统、学习路径规划、技能评估建模等研究方向。
数据文件与字段定义:
train_submissions.csv(训练集提交记录)
user_id:用户唯一标识
problem_id:题目唯一标识
attempts_range:用户成功通过题目前所需尝试的次数范围,定义如下:
1:1次
2:2–3次
3:4–5次
4:6–7次
5:8–9次
6:10次及以上
user_data.csv(用户信息数据)
user_id:用户唯一标识
submission_count:用户总提交次数
problem_solved:用户总通过题目数量
contribution:用户对平台的贡献值
country:用户所在国家
follower_count:用户的关注者数量
last_online_time_seconds:用户上次在线时间(单位为秒,时间戳形式)
max_rating:用户历史最高评级
rating:当前评级
rank:用户等级(beginner,intermediate,advanced,expert)
registration_time_seconds:用户注册时间(单位为秒,时间戳形式)
problem_data.csv(题目信息数据)
problem_id:题目唯一标识
level_id:题目难度等级,从“A”到“N”不等,等级越高表示难度越大
points:该题的得分值
tags:题目标签,如“贪心”、“图论”、“DFS”等,用于题目类型归类
test_submissions.csv(测试集提交记录)
ID:测试数据的唯一编号
user_id:用户唯一标识
problem_id:题目唯一标识
(目标字段 attempts_range 需预测)
数据特征:
数据总量:221,850 条提交记录,其中训练集为 155,295 条,测试集为 66,555 条
多源数据结构,融合用户行为、属性、题目信息,适用于多模态建模
attempts_range 为多分类预测目标,适合使用分类模型
含标签字段(tags)和用户等级信息,利于特征工程扩展
数据来源:
模拟自真实在线判题平台用户行为,适合用于推荐系统建模与学习路径引导算法设计。
数据格式:
CSV格式,结构清晰,主键字段包括user_id和problem_id,可与用户和题目数据进行联结使用。
时间范围:
未明示具体时间戳起止时间,数据中的时间字段为秒级时间戳。
更新频率:
本数据集为一次性整理的静态数据,当前无更新计划。
适用场景:
在线判题系统的智能题目推荐引擎设计
用户编程技能分级建模与行为预测
学习曲线与解题效率分析
教育平台的个性化学习路径优化
多分类模型建模与特征工程练习