Reddit问答系统训练与测试数据集2011-thedevastator

Reddit问答系统训练与测试数据集2011-thedevastator 数据来源:互联网公开数据 标签:问答系统,Reddit,用户生成内容,训练数据,测试数据,自然语言处理,机器学习

数据概述: 本数据集提供了来自Reddit用户的全面问答数据集合,涵盖多个列,包含帖子标题、正文内容、文档(标题与正文组合)、所属子版块等关键信息。此外,数据集还包含了不同部分提及的URL信息,这些部分包括标题、正文以及用户回复。该数据集主要用于训练和测试问答系统,具有高度的实用性和代表性。

数据用途概述: 该数据集适用于问答系统的训练、评估以及用户生成内容的研究。研究人员可以用此数据集训练和改进问答系统,评估现有系统的性能,并深入分析用户在线问答行为和信息获取模式。此外,数据集还适合用于自然语言处理和机器学习相关领域的研究。

数据集包含三个主要文件:

train_askh.csv:专为训练问答系统设计的高质量问答数据集。 test_eli5.csv:用于评估问答系统性能的问答数据集。 test_asks.csv:包含Reddit用户提出的问答数据,包括帖子标题、正文、文档、子版块信息、用户回复及相关的URL。

具体字段说明如下:

train_askh.csv: title:帖子标题(文本) selftext:帖子正文内容(文本) document:标题与正文组合的文档(文本) subreddit:帖子所属子版块(文本) answers:用户提供的回答(文本) title_urls:标题中提及的URL(文本) selftext_urls:正文中提及的URL(文本) answers_urls:用户回答中提及的URL(文本)

test_eli5.csv: title:帖子标题(文本) selftext:帖子正文内容(文本) document:标题与正文组合的文档(文本) subreddit:帖子所属子版块(文本) answers:用户提供的回答(文本) title_urls:标题中提及的URL(文本) selftext_urls:正文中提及的URL(文本) answers_urls:用户回答中提及的URL(文本)

test_asks.csv: title:帖子标题(文本) selftext:帖子正文内容(文本) document:标题与正文组合的文档(文本) subreddit:帖子所属子版块(文本) answers:用户提供的回答(文本) title_urls:标题中提及的URL(文本) selftext_urls:正文中提及的URL(文本) answers_urls:用户回答中提及的URL(文本)

数据集不含具体日期信息。使用该数据集时,可以分析用户提问、回答内容、子版块信息以及URL链接,以提升问答系统的性能和理解能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 503.16 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。