问答社区与维基百科问题相似度评估数据集QuestionSimilarityEvaluationDataset-pannyharer

问答社区与维基百科问题相似度评估数据集QuestionSimilarityEvaluationDataset-pannyharer

数据来源:互联网公开数据

标签:问题相似度, 文本匹配, 自然语言处理, 问答系统, 文本分析, 数据标注, 众包评估, 机器学习

数据概述: 该数据集包含来自Stack Overflow和维基百科的数据,记录了对问题的相似度进行评估的结果。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态数据集,反映特定时间点的问题相似度评估结果。 地理范围:数据来源于全球性的问答社区和百科全书,内容涵盖广泛。 数据维度:数据集包括“Community”(问题来源社区)、“Id”(问题唯一标识)、“Request”(问题文本)、“Score1”至“Score5”(五位众包评估者的评分)、“TurkId1”至“TurkId5”(评估者ID)、“Normalized Score”(标准化后的相似度评分)。 数据格式:CSV格式,包含两个文件,分别为stack-exchange.annotated.csv和wikipedia.annotated.csv,便于数据分析和处理。 数据来源:数据来源于Stack Overflow问答社区和维基百科,并通过众包方式进行标注和评估。 该数据集适合用于问题相似度计算、文本匹配、自然语言处理等领域的研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、信息检索、问答系统等领域的学术研究,例如问题相似度计算模型的评估、不同社区问题语义的比较分析等。 行业应用:可用于构建智能问答系统、搜索引擎、推荐系统等,提升用户体验和信息检索效率。 决策支持:可以用于优化内容推荐策略,改进社区问题分类与管理,提升信息组织的效率。 教育和培训:作为自然语言处理、机器学习等课程的实训数据,帮助学生理解文本相似度计算方法和模型。 此数据集特别适合用于评估不同方法在问题相似度计算方面的性能,以及探索影响问题相似度评估的因素,如问题文本的表达方式、社区语境等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.94 MiB
最后更新 2025年5月10日
创建于 2025年5月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。