数据集

arXiv学术论文多标签分类数据集-计算机科学-人工智能等领域-v2-kelixirr

arXiv学术论文多标签分类数据集-计算机科学-人工智能等领域-v2-kelixirr 数据来源：互联网公开数据标签：学术论文,arXiv,多标签分类,文本分类,机器学习,计算机科学,人工智能,自然语言处理,数据集数据概述：本数据集包含来自arXiv（一个开放获取的学术论文预印本平台）的学术论文，涵盖计算机科学、人工智能、数学等多个学科领域。数据集经过预处理，并针对多标签分类任务进行了标注，每篇论文都与一个或多个学科类别相关联。

本数据集中包含论文的摘要及其对应的学科类别标签。提供了两个版本的数据集：原始数据集（90K篇论文，未进行类别平衡）和简化数据集（34K篇论文，进行了类别平衡处理）。

v2版本：为了简化使用，本数据集增加了训练集、测试集和验证集，用于四标签分类问题。

数据用途概述：该数据集适用于多种研究与应用场景，包括但不限于： * 多标签文本分类模型训练与评估。 * 自然语言处理（NLP）相关研究，如主题建模、文本摘要等。 * 学术论文推荐系统开发。 * 机器学习算法的测试和比较。 * 教育与科研，用于教学案例和研究项目。

数据与资源

versions_20250412034929.zipZIP
62.24 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	62.24 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

arXiv学术论文多标签分类数据集-计算机科学-人工智能等领域-v2-kelixirr

数据与资源

附加信息

注册成功！