科学教育研究主题建模数据集

数据集概述

本数据集包含Wiley期刊《Science Education》(前身为《General Science Quarterly》)近百年发表文章的文本数据,经清洗处理后用于自然语言处理分析,特别是潜在狄利克雷分配(LDA)主题建模。数据集包含5577篇1922年后发表的文章文本及相关元数据,并提供Jupyter Notebook演示LDA分析流程,可用于探索期刊历史中主题的演变趋势。

文件详解

  • scied_words_bigrams_V5.pkl:Python pickle格式文件,存储清洗后的文章文本,包含处理后的单词、词元及检测出的双词组合(如problem_solving)。
  • SciEd_paper_names_weights.pkl:Python pickle格式文件,存储每篇文章的元数据(标题、作者、发表年份、DOI)及LDA模型分配的权重,与主数据文件顺序一致。
  • Science Education LDA Notebook.ipynb:Jupyter Notebook文件,复现LDA分析流程,包含步骤说明及结果探索建议。
  • README.md:说明文档,介绍数据集背景与使用方法。
  • requirements.txt:文本文件,列出分析所需的Python库及其版本(如gensim、matplotlib、nltk等)。
  • helpers.py:Python脚本文件,包含Notebook中使用的绘图辅助函数。
  • CumuPrev.html、AvgPrev.html:HTML格式文件,为Notebook嵌入的可视化图表。

适用场景

  • 科学教育研究:分析《Science Education》期刊百年主题演变,识别研究热点与趋势。
  • 自然语言处理应用:验证LDA等主题建模算法在教育类文本数据中的效果。
  • 学术出版趋势分析:探究科学教育领域研究方向的历史变迁与发展脉络。
  • 文本挖掘教学:作为教学案例,演示学术文本清洗、预处理及主题建模的完整流程。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 208.72 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。