数据集

科学教育研究主题建模数据集

数据集概述

本数据集包含Wiley期刊《Science Education》（前身为《General Science Quarterly》）近百年发表文章的文本数据，经清洗处理后用于自然语言处理分析，特别是潜在狄利克雷分配（LDA）主题建模。数据集包含5577篇1922年后发表的文章文本及相关元数据，并提供Jupyter Notebook演示LDA分析流程，可用于探索期刊历史中主题的演变趋势。

文件详解

scied_words_bigrams_V5.pkl：Python pickle格式文件，存储清洗后的文章文本，包含处理后的单词、词元及检测出的双词组合（如problem_solving）。
SciEd_paper_names_weights.pkl：Python pickle格式文件，存储每篇文章的元数据（标题、作者、发表年份、DOI）及LDA模型分配的权重，与主数据文件顺序一致。
Science Education LDA Notebook.ipynb：Jupyter Notebook文件，复现LDA分析流程，包含步骤说明及结果探索建议。
README.md：说明文档，介绍数据集背景与使用方法。
requirements.txt：文本文件，列出分析所需的Python库及其版本（如gensim、matplotlib、nltk等）。
helpers.py：Python脚本文件，包含Notebook中使用的绘图辅助函数。
CumuPrev.html、AvgPrev.html：HTML格式文件，为Notebook嵌入的可视化图表。

适用场景

科学教育研究：分析《Science Education》期刊百年主题演变，识别研究热点与趋势。
自然语言处理应用：验证LDA等主题建模算法在教育类文本数据中的效果。
学术出版趋势分析：探究科学教育领域研究方向的历史变迁与发展脉络。
文本挖掘教学：作为教学案例，演示学术文本清洗、预处理及主题建模的完整流程。

数据与资源

4094974.zipZIP
208.72 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	208.72 MiB
最后更新	2025年12月10日
创建于	2025年12月10日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

科学教育研究主题建模数据集

数据集概述

文件详解

适用场景

数据与资源

附加信息

注册成功！