数据集概述
本数据集为2018年澳大利亚国立大学数据库课程实验收集的学生SQL语句提交数据,含12,899条学生提交记录,及45条/习题的人工评分基准数据,存储于SQLite数据库,可用于评估SQL自动评分方法。
文件详解
- 文件名称: Submission.sqlite
- 文件格式: SQLite数据库文件
- 数据表说明:
- exercises_result:存储学生提交语句,字段包括submission_id(提交ID)、submitted_answer(学生提交语句)、submission_time(提交时间)、exercise_id(习题ID)、is_correct(是否正确)、student_id(学生ID)、category(语句分类:noninterpretable/partially correct/correct/cheating)
- exercises_benchmark:存储人工评分数据,字段包括Submission_id(提交ID)、grade(评分)、tutor(助教)
- exercises_exercise:存储习题信息,字段包括id(习题ID)、title(习题标题)、preamble(习题描述)、difficulty(难度系数)、ref(参考语句)
- 文件名称: db_schema.pdf
- 文件格式: PDF
- 内容:实验所用数据库的 schema 说明
- 文件名称: README.md
- 文件格式: Markdown
- 内容:实验背景、数据收集过程及数据集说明文档
数据来源
澳大利亚国立大学
适用场景
- SQL自动评分系统研发:用于训练和评估结合动静态分析的SQL语句自动评分模型
- 教育数据挖掘:分析学生SQL学习过程中的错误模式与提交行为
- 教学评估:评估人工评分与自动评分的一致性,优化习题设计
- 数据库教育研究:探究学生对SQL语句正确性的理解差异