数据集概述
本数据集来自论文“GPT-4 Shows Comparable Performance to Human Examiners in Ranking Open-Text Answers”,包含三个Excel文件,记录GPT-4与人类考官对开放式文本答案的评分对比数据,涉及多答案排序、分数评估及鲁棒性检验,用于验证GPT-4的评分能力。
文件详解
- Data_complete_Can_GPT_Replace_Human_Examiners.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含两个工作表,“Data”为五份答案排序与分数评估的主分析数据集;“Robustness & Extensions”为五份答案排序与分数评估的鲁棒性及扩展分析数据集。
- point_assessment_single_answer_all_robustness_score.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含单份答案分数评估的所有鲁棒性检验相关数据。
- point_assessment_single_answer.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含单份答案分数评估的主数据集(不含鲁棒性检验数据)。
数据来源
论文“GPT-4 Shows Comparable Performance to Human Examiners in Ranking Open-Text Answers”
适用场景
- 自然语言处理模型评估: 分析GPT-4在开放式文本答案评分任务中的准确性与可靠性。
- 教育评估工具研发: 探索AI模型替代人类考官进行主观题评分的可行性。
- 模型鲁棒性研究: 基于鲁棒性检验数据,研究GPT-4评分结果的稳定性与一致性。
- 学术研究数据支持: 为GPT-4与人类评分对比的相关研究提供原始数据支撑。