数据集 - 海数据

软件工程师形象的LLM社会刻板印象研究补充资源

2025年12月11日

数据集概述本数据集是ICSE 2025会议SEIS轨道论文的补充资源，聚焦大型语言模型（GPT-4、Microsoft Copilot）在软件工程师招聘场景中生成的文本与图像输出，揭示其隐含的性别、种族等社会刻板印象，包含分析数据与支撑文档。文件详解文本分析文件：Textual...

ZIP

基于上下文学习的大语言模型单元测试生成实证研究复现包

2025年12月11日

数据集概述本数据集是论文《基于上下文学习的大语言模型单元测试生成实证研究》的复现包，包含支持研究结果复现的相关文件，可用于验证大语言模型在单元测试生成任务中的表现。文件详解文件名称: parser.zip：压缩包格式，可能包含用于解析代码或测试用例的脚本或工具。文件名称:...

ZIP

NLP_LLM_Based_葡萄牙语软件工程岗位数据提取对比分析完整数据

2025年12月10日

数据集概述本数据集围绕葡萄牙语软件工程招聘信息的数据提取任务，对比分析自然语言处理（NLP）与大语言模型（LLM）的应用效果，包含招聘信息数据文件、岗位列表及分析报告类文件。文件详解 Vagas para Comparação.json：JSON格式文件，包含用于对比分析的葡萄牙语软件工程招聘信息数据。 Lista de cargos...

ZIP

基于大语言模型重写故事的葡萄牙语叙事性别偏见研究数据集

2025年12月10日

数据集概述本数据集为葡萄牙语文学作品语料库，用于研究大语言模型生成叙事中的性别偏见。语料库含五百九十二部作品，经筛选后得两万八千三百一十七个句子、七十七万四千五百一十六个词，作品覆盖不同历史时期与文学风格，每部最多取一百句以平衡分布。文件详解...

ZIP

LLM软件架构知识比较分析复现包

2025年12月10日

数据集概述本数据集是论文《LLMs for Software Architecture Knowledge: A Comparative Analysis among Seven LLMs》的复现包，包含用于复现研究的相关材料，支持验证七种LLM在软件架构知识查询任务中的性能差异。文件详解文件名称：OnlineMaterial.zip...

ZIP

Mistral_Small_3_1模型系统评估问答数据集

2025年12月9日

数据集概述该数据集包含用于大型语言模型（LLM）知识系统评估的德语开放式和选择题问答数据，记录了Mistral Small 3.1模型的回答结果，支持LLM知识能力的评估分析。文件详解文件名称: C_1.0.pdf，文件格式: PDF，内容为德语问答相关的文档文件名称: C_2.0.pdf，文件格式: PDF，内容为德语问答相关的文档...

ZIP

大语言模型分析与改进科学代码方法名数据集

2025年12月8日

数据集概述本数据集是研究大语言模型在科学代码方法名分析与改进应用的配套数据，包含实验输出数据库、代码实现文件、提示词模板及项目说明文档，支持复现相关研究结果。文件详解文件名称：ReadMe.md，文件格式：Markdown，内容：项目说明文档，介绍数据集对应的研究论文及各文件的用途。...

ZIP

LLM生成的库导入复制包

2025年12月8日

数据集概述本数据集是论文《How Robust are LLM-Generated Library Imports? An Empirical Study using Stack Overflow》的复制包，包含复现该研究所需的数据、代码及说明文档，聚焦分析大语言模型（LLM）生成Python代码时推荐的库导入情况。文件详解文件名称:...

ZIP

LLM温度分析程序合成数据集

2025年12月8日

数据集概述该数据集围绕大型语言模型（LLM）温度分析的程序合成主题构建，包含一个压缩文件，未提供具体内容预览，可支持相关技术分析与研究。文件详解文件名称：appendix.zip 文件格式：ZIP压缩包内容说明：数据集唯一文件，为压缩格式，未提供内部文件结构及字段信息适用场景 LLM温度参数对程序合成效果的影响研究...

ZIP

GPT4Kids研究数据_用于德语儿童词频估计的大语言模型生成语言语料库

2025年12月8日

数据集概述本数据集为"大型语言模型能否生成有用的语言语料库？以德国年轻读者词频效应为例"研究提供支持，包含三个实验数据：GPT-3.5实验、温度与受众变异分析、开源大语言模型评估。文件详解文件名称: exp123.zip 文件格式: ZIP (.zip) 文件内容: 压缩包内包含三个实验的全部数据，具体字段与结构需解压后查看原始文件内容适用场景...

ZIP

模型驱动工程与大语言模型可持续性评估数据集

2025年12月8日

数据集概述本数据集围绕模型驱动工程（MDE）与大语言模型（LLMs）的可持续性展开评估，核心内容对比分析LLM代码生成、代码修正能力与MDE方法的差异，为相关技术可持续性研究提供数据支持。文件详解文件名称: sustainabilityData.zip 文件格式: ZIP压缩包（.zip）内容说明:...

ZIP

使用大语言模型时需求中条件从句的解释数据集

2025年12月8日

数据集概述本数据集围绕使用大语言模型（LLMs）时对需求中条件从句的解释展开，包含提示脚本、响应数据、分析脚本、结果文件及可视化脚本等5个压缩文件，为研究大语言模型处理需求条件从句的能力提供数据支持。文件详解文件名称：prompting_scripts.zip，文件格式：ZIP，包含用于生成条件从句解释任务的提示脚本文件...

ZIP

大型语言模型用于Web性能问题自动解决评估数据集

2025年12月7日

数据集概述本数据集围绕大型语言模型（LLMs）在Web性能问题自动解决中的应用评估展开，核心为包含相关研究复现材料的压缩文件，未提供详细内容预览，为该领域研究提供基础数据支持。文件详解文件名称：replication-package-v2.zip 文件格式：ZIP（.zip）...

ZIP

基于LLM的编码助手澄清问题设计数据集及模型权重

2025年12月7日

数据集概述本数据集包含用于研究“通过设计激发好奇心：基于LLM的编码助手询问澄清问题”的实验数据与模型权重，涵盖用户研究样本文档、分类器训练数据、测试管道数据、合成数据集及训练后的模型权重文件，为编码助手交互机制研究提供支持。文件详解文档文件： Sample of User Study RQ1_ name of...

ZIP

系统评价标题摘要筛选大语言模型评估数据集

2025年12月5日

数据集概述该数据集是用于评估大语言模型（LLMs）在系统评价标题-摘要筛选任务中表现的专用数据集（SESR-Eval），包含实验数据、LLM结果及相关文档，支持复现研究与基准测试。文件详解该数据集以压缩包形式组织，内部包含以下核心目录： - 数据目录（data）：包含复制包选择、信度协议、处理后数据、LLM结果及SESR-...

ZIP

ThoughtSource大型语言模型推理数据中心数据集快照

2025年12月4日

数据集概述本数据集是ThoughtSource平台的公开数据快照，ThoughtSource是针对大型语言模型（LLMs）思维链推理的元数据集与软件库。快照包含公开可用的推理数据资源，为研究LLM推理机制提供数据支持。文件详解文件名称: Dataset-licenses.pdf 文件格式: PDF 内容说明: 记录数据集相关的许可协议文件...

ZIP

GPT_4代码摘要局限性检验复现包

2025年12月4日

数据集概述本数据集为GPT-4代码摘要局限性检验的复现包，包含相关研究的复现所需文件，以压缩包形式呈现，为验证GPT-4在代码摘要任务中的性能局限提供支持。文件详解文件名称: llm-code-understanding-replication-package.zip 文件格式: ZIP压缩包（.zip）内容说明:...

ZIP

GPT_4生成传记中的性别偏见研究补充材料_意大利语与法语人名语料库

2025年12月4日

数据集概述本数据集是关于GPT-4生成传记中性别偏见的语料库研究补充材料，聚焦意大利语和法语人名的分析。数据集包含一份PDF格式的补充文档，为理解模型生成内容中的性别偏见现象提供支持。文件详解文件名称: Decesare_Weidensdorfer_Burchardt_2025_supplementary material_LaGenda.pdf...

ZIP

英语初学者情感分析数据集-多情感文本-生成文本-dangerousai

2025年5月31日

英语初学者情感分析数据集-多情感文本-生成文本-dangerousai 数据来源：互联网公开数据标签：情感分析,文本生成,英语学习,自然语言处理,机器学习,情感分类,LLM,GPT-3.5,ChatGLM-4 数据概述：...

ZIP

Kaggle平台用户支持文档与LLM应用数据集-20231217

2025年5月31日

Kaggle平台用户支持文档与LLM应用数据集-20231217 数据来源：互联网公开数据标签：Kaggle, LLM, RAG, 用户支持, 问答系统, 自然语言处理, 机器学习, 数据集数据概述：本数据集旨在用于测试基于LLM（大型语言模型）和RAG（检索增强生成）技术的简单应用构建。数据用途概述：...

ZIP

找到124个数据集

注册成功！