数据集概述
本数据集包含Wiley期刊《Science Education》(前身为《General Science Quarterly》)近百年发表文章的文本数据,经清洗处理后用于自然语言处理分析,特别是潜在狄利克雷分配(LDA)主题建模。数据集包含5577篇1922年后发表的文章文本及相关元数据,并提供Jupyter Notebook演示LDA分析流程,可用于探索期刊历史中主题的演变趋势。
文件详解
- scied_words_bigrams_V5.pkl:Python pickle格式文件,存储清洗后的文章文本,包含处理后的单词、词元及检测出的双词组合(如problem_solving)。
- SciEd_paper_names_weights.pkl:Python pickle格式文件,存储每篇文章的元数据(标题、作者、发表年份、DOI)及LDA模型分配的权重,与主数据文件顺序一致。
- Science Education LDA Notebook.ipynb:Jupyter Notebook文件,复现LDA分析流程,包含步骤说明及结果探索建议。
- README.md:说明文档,介绍数据集背景与使用方法。
- requirements.txt:文本文件,列出分析所需的Python库及其版本(如gensim、matplotlib、nltk等)。
- helpers.py:Python脚本文件,包含Notebook中使用的绘图辅助函数。
- CumuPrev.html、AvgPrev.html:HTML格式文件,为Notebook嵌入的可视化图表。
适用场景
- 科学教育研究:分析《Science Education》期刊百年主题演变,识别研究热点与趋势。
- 自然语言处理应用:验证LDA等主题建模算法在教育类文本数据中的效果。
- 学术出版趋势分析:探究科学教育领域研究方向的历史变迁与发展脉络。
- 文本挖掘教学:作为教学案例,演示学术文本清洗、预处理及主题建模的完整流程。