模型质量评估_人类评分_提示词_模型及LLM回答数据集

数据集概述

该数据集为论文《Assessing Model Quality Using Large Language Models》的配套数据,包含人类评分结果、提示词、模型数据及大语言模型(LLM)回答等内容,用于模型质量评估研究。

文件详解

  • PDF文档文件(共6个):
  • Results LLM_M1.pdf、Results LLM_M2.pdf、Results LLM_M3.pdf:LLM评估结果文档
  • Prompt_M1.pdf、Prompt_M2.pdf、Prompt_M3.pdf:不同模型对应的提示词文档
  • Excel数据文件(共2个):
  • Models_CSV.xlsx:模型相关数据文件
  • Human Ratings.xlsx:人类评分结果数据文件

适用场景

  • 自然语言处理研究:评估大语言模型对其他模型质量的评估能力
  • 模型质量评估:分析人类评分与LLM自动评估结果的一致性
  • 提示工程研究:探究不同提示词对模型评估结果的影响
  • 人工智能评测:构建模型质量自动化评估的基准数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.43 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。