Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020

Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020 数据来源:互联网公开数据 标签:arXiv,论文元数据,摘要,机器学习,分类,文本处理,训练数据,TF-IDF

数据概述: 本数据集包含Klinger等人(2020年)整理的arXiv论文元数据和摘要信息,经过处理后可用于训练分类器以预测论文主题。数据集中重点关注了各种机器学习方法。数据集包括以下内容:

processed_paper_data:包含所有论文的文章ID及处理后的标题和摘要 method_labeled_ids:包含标记数据的文章ID及其标签 method_unlabeled_ids:包含未标记数据的文章ID labeled_tfidf:标记数据对应的TF-IDF向量化标题和摘要 unlabeled_tfidf:未标记数据对应的TF-IDF向量化标题和摘要

原始论文可访问:https://arxiv.org/abs/2009.10385 原始数据可访问:https://github.com/nestauk/narrowing_ai_research

数据用途概述: 该数据集适用于机器学习分类模型训练、文本数据处理研究、学术论文主题预测等多种场景。研究人员可以利用此数据集训练分类器以识别和预测论文主题;教育者可以使用此数据集进行教学演示,帮助学生理解文本分类和机器学习方法;此外,该数据集还适用于自然语言处理和信息检索领域的研究,为相关领域的学者提供宝贵的数据资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 523.72 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。