雅虎问答10类别NLP数据集

雅虎问答10类别NLP数据集 数据来源:互联网公开数据
标签:问答分类,自然语言处理,NLP,文本分类,问答系统,文本分析,机器学习,主题分类

数据概述:
本数据集基于雅虎问答平台,按照10个主要类别构建,每个类别包含14万条训练样本和6千条测试样本,总计140万条训练样本和6万条测试样本。数据集仅使用了最佳答案内容和主类别信息。文件classes.txt列出了每个标签对应的类别名称。文件train.csv和test.csv包含了所有训练和测试样本,每条记录包含4个字段:类别索引(1-10)、问题标题、问题内容和最佳答案。文本字段使用双引号转义,内部双引号用两个双引号转义,新行用“\n”转义。

数据用途概述:
该数据集适用于自然语言处理领域的文本分类、问答系统训练、主题分类研究等多种场景。研究人员可以利用此数据集进行模型训练和性能评估;企业可以用于构建自动化问答系统;教育机构可以将其用于NLP教学和研究。此外,数据集也适合用于探索文本特征提取、分类算法优化等任务。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 304.99 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。