Stack_Overflow帖子人工验证版本历史数据集

数据集概述

本数据集包含Stack Overflow帖子的人工验证版本历史,用于评估SOTorrent平台的字符串相似性指标。针对2018年11月1日和12月14日发布的版本,已对基准真值文件进行双重检查和更新,为相关技术评估提供可靠数据支持。

文件详解

  • 文件类型与数量:共9个文件,无目录结构
  • 压缩文件(.zip):8个,命名含"PostId_VersionCount_SO"等关键词,如PostId_VersionCount_SO_Java_17-06_sample_100_1.zip、PostId_VersionCount_SO_17-06_sample_100_multiple_possible_links.zip等,包含不同样本类型的帖子版本历史数据
  • 文本文件(.txt):1个,即LICENSE.txt,包含数据许可信息,提及样本源自2017年6月12日Stack Exchange官方数据转储

数据来源

  • 样本数据源自Stack Exchange官方数据转储(2017-06-12)
  • 数据集创建与验证关联工具及项目:sotorrent/posthistory-gt、sotorrent/posthistory-comparator-gt-cs、sotorrent/metric-evaluation

适用场景

  • 字符串相似性指标评估:用于测试和验证SOTorrent平台的字符串相似性计算方法
  • 技术文档版本历史分析:研究Stack Overflow帖子版本更新规律与内容变化特征
  • 数据质量验证研究:作为基准数据,支持版本历史匹配算法的数据质量验证场景
  • 软件开发社区行为分析:辅助分析开发者在技术问答平台的内容编辑行为模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.47 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。