大语言模型替代软件工程制品人工标注研究数据集

数据集概述

本数据集围绕“大语言模型能否替代软件工程制品人工标注”的研究主题构建,包含实验所需的代码脚本、结果数据、可视化脚本及示例提示词文件,支持复现不同模型在多种软件工程任务中的标注效果对比实验。

文件详解

  • 压缩包文件(共6个,.zip格式):
  • semantic_similarity.zip、SA.zip、name_value_inconsistency.zip、code_summarization_adequacy_conciseness.zip、code_summarization_accuracy_similarity.zip、causality.zip:分别对应不同软件工程任务的数据集压缩包
  • 代码文件(共3个,.py格式):
  • majority.py:用于生成论文Figure 6的脚本
  • scatter.py:用于生成论文Figure 6的脚本
  • probability.py:用于生成论文Figure 12的脚本
  • 文档文件(共1个,.pdf格式):
  • Prompts.pdf:包含所有数据集的示例提示词

适用场景

  • 软件工程研究:分析大语言模型在语义相似性、代码摘要等任务中替代人工标注的可行性
  • 自然语言处理应用:探究不同大语言模型(如GPT-4、Llama3)在技术文本标注任务中的性能差异
  • 实验复现:支持复现论文中关于模型标注效果对比的实验结果与可视化图表
  • 提示工程研究:基于示例提示词优化大语言模型在软件工程领域的标注任务表现
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 62.35 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。