数据集

在线编程评估与推荐模型训练数据集

在线编程评估与推荐模型训练数据集数据来源：互联网公开数据标签：推荐系统,在线编程,用户行为,问题难度,编程竞赛,机器学习,数据分析数据概述：本数据集源自一个在线判题平台的实际交互记录，旨在支持构建一个推荐引擎，用于预测用户解题所需尝试次数范围，并据此推荐适合其当前水平的问题。数据包括用户历史提交记录、用户属性信息、题目特征等，适用于个性化推荐系统、学习路径规划、技能评估建模等研究方向。

数据文件与字段定义：

train_submissions.csv（训练集提交记录）

user_id：用户唯一标识

problem_id：题目唯一标识

attempts_range：用户成功通过题目前所需尝试的次数范围，定义如下：

1：1次

2：2–3次

3：4–5次

4：6–7次

5：8–9次

6：10次及以上

user_data.csv（用户信息数据）

user_id：用户唯一标识

submission_count：用户总提交次数

problem_solved：用户总通过题目数量

contribution：用户对平台的贡献值

country：用户所在国家

follower_count：用户的关注者数量

last_online_time_seconds：用户上次在线时间（单位为秒，时间戳形式）

max_rating：用户历史最高评级

rating：当前评级

rank：用户等级（beginner，intermediate，advanced，expert）

registration_time_seconds：用户注册时间（单位为秒，时间戳形式）

problem_data.csv（题目信息数据）

problem_id：题目唯一标识

level_id：题目难度等级，从“A”到“N”不等，等级越高表示难度越大

points：该题的得分值

tags：题目标签，如“贪心”、“图论”、“DFS”等，用于题目类型归类

test_submissions.csv（测试集提交记录）

ID：测试数据的唯一编号

user_id：用户唯一标识

problem_id：题目唯一标识

（目标字段 attempts_range 需预测）

数据特征：

数据总量：221,850 条提交记录，其中训练集为 155,295 条，测试集为 66,555 条

多源数据结构，融合用户行为、属性、题目信息，适用于多模态建模

attempts_range 为多分类预测目标，适合使用分类模型

含标签字段（tags）和用户等级信息，利于特征工程扩展

数据来源：模拟自真实在线判题平台用户行为，适合用于推荐系统建模与学习路径引导算法设计。

数据格式： CSV格式，结构清晰，主键字段包括user_id和problem_id，可与用户和题目数据进行联结使用。

时间范围：未明示具体时间戳起止时间，数据中的时间字段为秒级时间戳。

更新频率：本数据集为一次性整理的静态数据，当前无更新计划。

适用场景：

在线判题系统的智能题目推荐引擎设计

用户编程技能分级建模与行为预测

学习曲线与解题效率分析

教育平台的个性化学习路径优化

多分类模型建模与特征工程练习

数据与资源

在线编程评估与推荐模型训练数据集.zipZIP
1.84 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.84 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

在线编程评估与推荐模型训练数据集

数据与资源

附加信息

注册成功！