arXiv学术论文多标签分类数据集-计算机科学-人工智能等领域-v2-kelixirr

arXiv学术论文多标签分类数据集-计算机科学-人工智能等领域-v2-kelixirr 数据来源:互联网公开数据 标签:学术论文,arXiv,多标签分类,文本分类,机器学习,计算机科学,人工智能,自然语言处理,数据集 数据概述: 本数据集包含来自arXiv(一个开放获取的学术论文预印本平台)的学术论文,涵盖计算机科学、人工智能、数学等多个学科领域。数据集经过预处理,并针对多标签分类任务进行了标注,每篇论文都与一个或多个学科类别相关联。

本数据集中包含论文的摘要及其对应的学科类别标签。提供了两个版本的数据集:原始数据集(90K篇论文,未进行类别平衡)和简化数据集(34K篇论文,进行了类别平衡处理)。

v2版本:为了简化使用,本数据集增加了训练集、测试集和验证集,用于四标签分类问题。

数据用途概述: 该数据集适用于多种研究与应用场景,包括但不限于: * 多标签文本分类模型训练与评估。 * 自然语言处理(NLP)相关研究,如主题建模、文本摘要等。 * 学术论文推荐系统开发。 * 机器学习算法的测试和比较。 * 教育与科研,用于教学案例和研究项目。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 1, 2025, 18:45 (UTC)
创建于 六月 1, 2025, 18:43 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。