数据集概述
本数据集为ICSE2025论文研究配套数据,包含用户故事、问题跟踪数据、分类训练集、提示文本及评估结果等10个文件。核心内容是支持CrUISE-AC方法的验证,该方法通过利用众包知识优化用户故事的验收标准,涵盖电商与CMS领域的用户故事、问题数据及人工标注训练集。
文件详解
- 用户故事数据
- 文件名称:User stories e-commerce.xlsx
- 文件格式:XLSX
- 字段映射:包含ID(唯一标识)、Project(所属项目A/B/C)、Connextra(Connextra模式用户故事)、Acceptance Criteria(原始验收标准)
- 文件名称:User stories CMS.xlsx
- 文件格式:XLSX
- 字段映射:包含ID(唯一标识)、Connextra(Connextra模式用户故事)
- 问题跟踪数据
- 文件名称:Issues e-commerce.xlsx
- 文件格式:XLSX
- 字段映射:包含id(唯一标识)、Issue Tracker(来源跟踪器)、Title(问题标题)、Body(问题描述)、Preprocessed(预处理文本)、Sample(是否为评估样本)
- 文件名称:Issues CMS.xlsx
- 文件格式:XLSX
- 字段映射:与Issues e-commerce.xlsx一致
- 分类训练数据
- 文件名称:trivia-trainingdata.csv
- 文件格式:CSV
- 字段映射:包含Sentence(短语)、Label(标签:1为 trivia,0为非trivia)
- 提示文本文件
- 文件名称:prompt_match.txt、prompt_generate.txt、prompt_evaluate.txt
- 文件格式:TXT
- 内容说明:分别为LLM匹配问题与用户故事、生成Gherkin风格验收标准、评估验收标准有用性的提示词
- 评估结果数据
- 文件名称:Evaluation e-commerce.xlsx
- 文件格式:XLSX
- 字段映射:包含StoryID(用户故事ID)、IssueID(问题ID)、Issue(预处理问题文本)、Connextra(用户故事)、Existing AC(原始验收标准)、AC(生成的验收标准)、AC_Explanation(生成说明)、E1-E4(专家评估结果)、3/4 majority(多数专家评估结果)
- 文件名称:Evaluation CMS.xlsx
- 文件格式:XLSX
- 字段映射:与Evaluation e-commerce.xlsx一致
数据来源
IEEE/ACM International Conference on Software Engineering (ICSE) 2025论文:"From Bugs to Benefits: Improving User Stories by Leveraging Crowd Knowledge with CrUISE-AC"
适用场景
- 软件工程需求优化研究: 分析CrUISE-AC方法对用户故事验收标准的优化效果
- 众包知识在需求工程中的应用研究: 探究问题跟踪数据等众包知识对需求完善的价值
- 文本分类模型训练: 利用trivia-trainingdata.csv训练trivia分类器
- 大语言模型提示工程研究: 基于提示文本文件分析不同LLM提示对结果的影响
- 软件需求评估方法验证: 参考评估结果文件的专家评估流程,优化需求评估体系