找到11个数据集

标签: 大语言模型评估

过滤结果
  • 学术机会与机构事务智能聊天机器人研究复现包

    2025年12月16日 30 106 7

    数据集概述 本数据集是论文《Hello, Freire! How Can You Help Me?》的研究复现包,包含该智能聊天机器人相关的评估问卷、用户反馈表单及研究分析文件,为复现论文结论提供数据支持。 文件详解 问卷与表单文件(PDF格式): Validação Ingressantes - Formulários...
    packageimg
  • 聊天机器人数学与逻辑问题测试数据集2023

    2025年12月15日 30 28 4

    数据集概述 本数据集包含2023年5月针对ChatGPT-3.5、ChatGPT-4和Google Bard的30道数学与逻辑问题测试内容,含问题文本、正确答案、解答说明及270条聊天机器人回答,分原创(Set A)和公开(Set B)两类问题,为对比评估聊天机器人逻辑推理能力提供数据支持。 文件详解 数据集包含一个PDF格式的文档文件,具体如下: -...
    packageimg
  • ChatGPT与开发者判断差异研究数据集_Stack_Overflow_Java问题

    2025年12月14日 30 117 50

    数据集概述 本数据集为一项探究ChatGPT判断与开发者判断差异的研究复现包,核心围绕Stack Overflow平台上的Java问题展开,通过复现包形式提供研究相关的完整数据,支持对AI与人类开发者判断差异的验证分析。 文件详解 文件名称: Replication Package.zip 文件格式: ZIP压缩包(.zip) 文件内容:...
    packageimg
  • Android应用多模态GUI测试生成的LLM评估数据集

    2025年12月13日 30 151 9

    数据集概述 本数据集是围绕Android应用多模态GUI测试生成任务的大语言模型(LLM)评估相关数据,以压缩包形式存储,未提供具体内容预览。 文件详解 文件名称: dataset+results.zip 文件格式: ZIP (.zip) 内容说明:...
    packageimg
  • 生态数据挖掘大语言模型评估与基准测试数据集

    2025年12月12日 30 176 153

    数据集概述 本数据集包含生态数据挖掘场景下大语言模型(LLM)评估的完整资源,涵盖500篇摘要数据、专家验证的标注及模型输出,辅以可复现评估流程的脚本,支持LLM性能验证、模型探索及跨领域适配。 文件详解 文件名称: CodesAndDatasets.zip 文件格式: ZIP压缩包 包含内容:...
    packageimg
  • 数据集误用对语义克隆检测的影响研究补充材料

    2025年12月12日 30 4 3

    数据集概述 本数据集为研究“数据集误用如何影响语义克隆检测”的补充材料,包含手动调查所用的克隆对、调查协议、结果,以及基于大语言模型的数据集评估结果、文献分析代码和综述结果等内容,支持相关研究验证与复现。 文件详解 该数据集包含两个文件夹及相关文件,具体说明如下: - BCB406 文件夹: -...
    packageimg
  • 生物信息学研究中的大语言模型评估数据集

    2025年12月9日 30 193 97

    数据集概述 本数据集为生物信息学研究中大语言模型评估相关的研究资料,包含药物-药物相互作用预测任务的正负样本数据及多种模型生成的药物描述嵌入文件,支持复现大语言模型在生物信息学任务中的评估实验。 文件详解 目录Section_A_ddi下的文件: ddinter_positive_samples.csv:CSV格式,来自DDInter数据库的药物-...
    packageimg
  • 技术手册问答基准数据集2025_TechManualQA_350

    2025年12月8日 30 46 34

    数据集概述 该数据集为技术手册问答基准数据集,包含来自10类技术手册的350个验证问答对,覆盖通用事实、流程指导、不可回答三类问题类型,用于评估大语言模型处理技术文档的性能,数据经自动化过滤与人工验证,确保质量可靠。 文件详解 主数据集文件:...
    packageimg
  • 纽约时报新闻小数据集

    2025年12月7日 30 188 21

    数据集概述 该数据集包含从纽约时报获取的10条新闻的前几段内容,收集于2023年Bertinoro语义网博士学校期间,由Dragon Team研究组用于项目工作。数据涉及大语言模型未包含的新信息,可用于知识图谱生成相关研究。 文件详解 文件名称: isws_pw_wikipedia_dataset - Latest News from Ney York...
    packageimg
  • 系统评价标题摘要筛选大语言模型评估数据集

    2025年12月5日 30 82 29

    数据集概述 该数据集是用于评估大语言模型(LLMs)在系统评价标题-摘要筛选任务中表现的专用数据集(SESR-Eval),包含实验数据、LLM结果及相关文档,支持复现研究与基准测试。 文件详解 该数据集以压缩包形式组织,内部包含以下核心目录: - 数据目录(data):包含复制包选择、信度协议、处理后数据、LLM结果及SESR-...
    packageimg
  • GPT_4代码摘要局限性检验复现包

    2025年12月4日 30 141 25

    数据集概述 本数据集为GPT-4代码摘要局限性检验的复现包,包含相关研究的复现所需文件,以压缩包形式呈现,为验证GPT-4在代码摘要任务中的性能局限提供支持。 文件详解 文件名称: llm-code-understanding-replication-package.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
    packageimg