数据集

问答社区与维基百科问题相似度评估数据集QuestionSimilarityEvaluationDataset-pannyharer

数据来源：互联网公开数据

标签：问题相似度, 文本匹配, 自然语言处理, 问答系统, 文本分析, 数据标注, 众包评估, 机器学习

数据概述：该数据集包含来自Stack Overflow和维基百科的数据，记录了对问题的相似度进行评估的结果。主要特征如下：时间跨度：数据未明确标注时间，可视为静态数据集，反映特定时间点的问题相似度评估结果。地理范围：数据来源于全球性的问答社区和百科全书，内容涵盖广泛。数据维度：数据集包括“Community”（问题来源社区）、“Id”（问题唯一标识）、“Request”（问题文本）、“Score1”至“Score5”（五位众包评估者的评分）、“TurkId1”至“TurkId5”（评估者ID）、“Normalized Score”（标准化后的相似度评分）。数据格式：CSV格式，包含两个文件，分别为stack-exchange.annotated.csv和wikipedia.annotated.csv，便于数据分析和处理。数据来源：数据来源于Stack Overflow问答社区和维基百科，并通过众包方式进行标注和评估。该数据集适合用于问题相似度计算、文本匹配、自然语言处理等领域的研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、信息检索、问答系统等领域的学术研究，例如问题相似度计算模型的评估、不同社区问题语义的比较分析等。行业应用：可用于构建智能问答系统、搜索引擎、推荐系统等，提升用户体验和信息检索效率。决策支持：可以用于优化内容推荐策略，改进社区问题分类与管理，提升信息组织的效率。教育和培训：作为自然语言处理、机器学习等课程的实训数据，帮助学生理解文本相似度计算方法和模型。此数据集特别适合用于评估不同方法在问题相似度计算方面的性能，以及探索影响问题相似度评估的因素，如问题文本的表达方式、社区语境等。

数据与资源

问答社区与维基百科问题相似度评估数据集QuestionSimilarityEvaluation...ZIP
0.94 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.94 MiB
最后更新	2025年5月10日
创建于	2025年5月10日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

问答社区与维基百科问题相似度评估数据集QuestionSimilarityEvaluationDataset-pannyharer

数据与资源

附加信息

注册成功！