雅虎问答主题分类数据集

雅虎问答主题分类数据集 数据来源:互联网公开数据 标签:文本分类,雅虎,问答,社会文化,科学数学,健康,教育参考,计算机互联网,体育,商业金融,娱乐音乐,家庭关系,政治政府,机器学习,深度学习,神经网络

数据概述: 本数据集基于雅虎问答网站中的10个最大类别构建,每个类别包含140,000个训练样本和6,000个测试样本,总计1,400,000个训练样本和60,000个测试样本。数据集仅使用了问题的最佳答案内容和所属的主要类别信息。主要类别包括:社会与文化、科学与数学、健康、教育与参考、计算机与互联网、体育、商业与金融、娱乐与音乐、家庭与关系、政治与政府。

数据用途概述: 该数据集主要用于文本分类任务,特别是在深度学习和神经网络领域的研究。研究人员可以利用此数据集评估和比较不同的文本分类算法,如字符级卷积神经网络(Character-level Convolutional Networks)。此外,该数据集也适用于自然语言处理、信息检索和机器学习相关的教育和培训。通过分析和处理这些问题和答案,可以帮助理解不同领域中的文本特征和模式。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 06:38 (UTC)
创建于 五月 31, 2025, 06:36 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。