Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020
数据来源:互联网公开数据
标签:arXiv,论文元数据,摘要,机器学习,分类,文本处理,训练数据,TF-IDF
数据概述:
本数据集包含Klinger等人(2020年)整理的arXiv论文元数据和摘要信息,经过处理后可用于训练分类器以预测论文主题。数据集中重点关注了各种机器学习方法。数据集包括以下内容:
processed_paper_data:包含所有论文的文章ID及处理后的标题和摘要
method_labeled_ids:包含标记数据的文章ID及其标签
method_unlabeled_ids:包含未标记数据的文章ID
labeled_tfidf:标记数据对应的TF-IDF向量化标题和摘要
unlabeled_tfidf:未标记数据对应的TF-IDF向量化标题和摘要
原始论文可访问:https://arxiv.org/abs/2009.10385
原始数据可访问:https://github.com/nestauk/narrowing_ai_research
数据用途概述:
该数据集适用于机器学习分类模型训练、文本数据处理研究、学术论文主题预测等多种场景。研究人员可以利用此数据集训练分类器以识别和预测论文主题;教育者可以使用此数据集进行教学演示,帮助学生理解文本分类和机器学习方法;此外,该数据集还适用于自然语言处理和信息检索领域的研究,为相关领域的学者提供宝贵的数据资源。