数据集概述
该数据集是ESM论文的技术附录,包含CERME主题模型相关的文件,涵盖主题分布列表、模型可视化结果及生成模型的代码,旨在保证研究的透明度。
文件详解
- 文件名称:Topic_model_CERME.ipynb,文件格式:.ipynb
- 内容:生成主题模型的代码文件,用于保证研究的完全透明度
- 文件名称:List of topic distribution per document.csv,文件格式:.csv
- 字段映射:包含Filename(文件名)、cleantext(清洗后的文本)、cermegroup(CERME分组)、cermeyear(CERME年份)、topic 0 contribution至topic 7 contribution(各主题的贡献度)等字段
- 文件名称:ESM_CERME_technical appendix.pdf,文件格式:.pdf
- 内容:ESM论文的技术附录文档
- 文件名称:Topic visualization.html,文件格式:.html
- 内容:主题模型的可视化结果文件
适用场景
- 学术研究:为ESM论文相关的CERME主题模型研究提供技术支持与数据验证
- 自然语言处理(NLP)研究:可用于主题模型构建与可视化方法的参考
- 文档主题分析:帮助分析CERME相关文档的主题分布特征
- 研究透明度实践:作为研究中代码与数据公开的范例参考