GPT_4_Based_学术论文评分能力对比研究数据集

数据集概述

本数据集来自论文“GPT-4 Shows Comparable Performance to Human Examiners in Ranking Open-Text Answers”,包含三个Excel文件,记录GPT-4与人类考官对开放式文本答案的评分对比数据,涉及多答案排序、分数评估及鲁棒性检验,用于验证GPT-4的评分能力。

文件详解

  • Data_complete_Can_GPT_Replace_Human_Examiners.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含两个工作表,“Data”为五份答案排序与分数评估的主分析数据集;“Robustness & Extensions”为五份答案排序与分数评估的鲁棒性及扩展分析数据集。
  • point_assessment_single_answer_all_robustness_score.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含单份答案分数评估的所有鲁棒性检验相关数据。
  • point_assessment_single_answer.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含单份答案分数评估的主数据集(不含鲁棒性检验数据)。

数据来源

论文“GPT-4 Shows Comparable Performance to Human Examiners in Ranking Open-Text Answers”

适用场景

  • 自然语言处理模型评估: 分析GPT-4在开放式文本答案评分任务中的准确性与可靠性。
  • 教育评估工具研发: 探索AI模型替代人类考官进行主观题评分的可行性。
  • 模型鲁棒性研究: 基于鲁棒性检验数据,研究GPT-4评分结果的稳定性与一致性。
  • 学术研究数据支持: 为GPT-4与人类评分对比的相关研究提供原始数据支撑。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.0 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。