数据集

GPT_4_Based_学术论文评分能力对比研究数据集

数据集概述

本数据集来自论文“GPT-4 Shows Comparable Performance to Human Examiners in Ranking Open-Text Answers”，包含三个Excel文件，记录GPT-4与人类考官对开放式文本答案的评分对比数据，涉及多答案排序、分数评估及鲁棒性检验，用于验证GPT-4的评分能力。

文件详解

Data_complete_Can_GPT_Replace_Human_Examiners.xlsx
文件格式：XLSX
字段映射介绍：包含两个工作表，“Data”为五份答案排序与分数评估的主分析数据集；“Robustness & Extensions”为五份答案排序与分数评估的鲁棒性及扩展分析数据集。
point_assessment_single_answer_all_robustness_score.xlsx
文件格式：XLSX
字段映射介绍：包含单份答案分数评估的所有鲁棒性检验相关数据。
point_assessment_single_answer.xlsx
文件格式：XLSX
字段映射介绍：包含单份答案分数评估的主数据集（不含鲁棒性检验数据）。

数据来源

论文“GPT-4 Shows Comparable Performance to Human Examiners in Ranking Open-Text Answers”

适用场景

自然语言处理模型评估: 分析GPT-4在开放式文本答案评分任务中的准确性与可靠性。
教育评估工具研发: 探索AI模型替代人类考官进行主观题评分的可行性。
模型鲁棒性研究: 基于鲁棒性检验数据，研究GPT-4评分结果的稳定性与一致性。
学术研究数据支持: 为GPT-4与人类评分对比的相关研究提供原始数据支撑。

数据与资源

16842481.zipZIP
1.00 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.0 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。