在线编程评估与推荐模型训练数据集

在线编程评估与推荐模型训练数据集 数据来源:互联网公开数据 标签:推荐系统,在线编程,用户行为,问题难度,编程竞赛,机器学习,数据分析 数据概述: 本数据集源自一个在线判题平台的实际交互记录,旨在支持构建一个推荐引擎,用于预测用户解题所需尝试次数范围,并据此推荐适合其当前水平的问题。数据包括用户历史提交记录、用户属性信息、题目特征等,适用于个性化推荐系统、学习路径规划、技能评估建模等研究方向。

数据文件与字段定义:

train_submissions.csv(训练集提交记录)

user_id:用户唯一标识

problem_id:题目唯一标识

attempts_range:用户成功通过题目前所需尝试的次数范围,定义如下:

1:1次

2:2–3次

3:4–5次

4:6–7次

5:8–9次

6:10次及以上

user_data.csv(用户信息数据)

user_id:用户唯一标识

submission_count:用户总提交次数

problem_solved:用户总通过题目数量

contribution:用户对平台的贡献值

country:用户所在国家

follower_count:用户的关注者数量

last_online_time_seconds:用户上次在线时间(单位为秒,时间戳形式)

max_rating:用户历史最高评级

rating:当前评级

rank:用户等级(beginner,intermediate,advanced,expert)

registration_time_seconds:用户注册时间(单位为秒,时间戳形式)

problem_data.csv(题目信息数据)

problem_id:题目唯一标识

level_id:题目难度等级,从“A”到“N”不等,等级越高表示难度越大

points:该题的得分值

tags:题目标签,如“贪心”、“图论”、“DFS”等,用于题目类型归类

test_submissions.csv(测试集提交记录)

ID:测试数据的唯一编号

user_id:用户唯一标识

problem_id:题目唯一标识

(目标字段 attempts_range 需预测)

数据特征:

数据总量:221,850 条提交记录,其中训练集为 155,295 条,测试集为 66,555 条

多源数据结构,融合用户行为、属性、题目信息,适用于多模态建模

attempts_range 为多分类预测目标,适合使用分类模型

含标签字段(tags)和用户等级信息,利于特征工程扩展

数据来源: 模拟自真实在线判题平台用户行为,适合用于推荐系统建模与学习路径引导算法设计。

数据格式: CSV格式,结构清晰,主键字段包括user_id和problem_id,可与用户和题目数据进行联结使用。

时间范围: 未明示具体时间戳起止时间,数据中的时间字段为秒级时间戳。

更新频率: 本数据集为一次性整理的静态数据,当前无更新计划。

适用场景:

在线判题系统的智能题目推荐引擎设计

用户编程技能分级建模与行为预测

学习曲线与解题效率分析

教育平台的个性化学习路径优化

多分类模型建模与特征工程练习

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 04:40 (UTC)
创建于 四月 15, 2025, 04:40 (UTC)