科学文献关键词分析数据集1963-2021

科学文献关键词分析数据集1963-2021 数据来源:互联网公开数据 标签:科学文献,关键词,作者关键词,自动关键词,Web of Science,文本分析,自然语言处理 数据概述: 本数据集包含了从Web of Science (WOS)数据库中提取的69,000篇文章的作者关键词(AK)和自动关键词(KP)信息。数据集分为三个不同的集合:原始数据(Raw)、过滤后的数据(filtered)和预处理后的数据(pre_processed)。原始数据保留了从WOS直接获取的数据格式,文档以CSV文件形式存储;过滤后的数据集去除了没有同时包含作者关键词和自动关键词的文章;预处理后的数据集清理了关键字中的特殊字符,并将所有关键字转换为小写形式并进行了词干提取。在过滤后的数据集中,每个文章对应一条记录,有两个文本文件:“ak.txt”(作者关键词)和“kp.txt”(自动关键词),每行对应一篇论文的关键词。预处理后的数据集中也包含相同的两个文本文件,每行对应一篇论文的预处理后的关键词。 数据用途概述: 该数据集适用于关键词分析、文本挖掘、自然语言处理等多种场景。研究人员可以利用此数据对比作者关键词和自动关键词的差异,了解关键词选择的趋势和模式;教育机构可以使用数据进行自然语言处理课程的教学;企业可以通过分析关键词了解行业趋势和研究热点。此外,数据集也适合用于学术界和工业界的数据分析竞赛,帮助参与者提升数据处理和分析能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.82 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。