数据集概述
本数据集收录了2016和2020年STOXX全球3000指数中300家大型企业(美国、欧洲、东亚各100家)可持续发展报告里SDG的提及频率,包含原始文档特征矩阵、SDG文本片段及句子压缩文件,还提供结构主题模型(STM)的Shiny应用参考。
文件详解
- 核心数据文件:
- SDG-dictionary.txt:TXT格式,包含从联合国决议文本提取的SDG特征词字典
- SDG_frequencies_weighted.txt:TXT格式,企业SDG提及的加权频率数据
- SDG_frequencies_absolute.txt:TXT格式,企业SDG提及的绝对频率数据
- dfm_sdg.Rdata:RData格式,原始文档-特征矩阵数据
- company_list.csv:CSV格式,包含企业ISIN编码和名称字段(如ISIN、company_name)
- 文本压缩文件:
- SDG_fragments.zip:ZIP格式,含报告中提及SDG的文本片段,文件名含企业ISIN和报告年份
- SDG_sentences.zip:ZIP格式,含报告中提及SDG相关关键词(如sustainable development goals、sdgs等)的句子,可导入CAQDAS软件进行手动编码分析
数据来源
corporateregister.com
适用场景
- 企业可持续发展报告实践分析:研究大型上市公司SDG披露行为与财务、组织变量的关联
- 文本挖掘研究:利用文档特征矩阵探索可持续发展报告的其他文本特征
- 定性文本分析:通过SDG文本片段开展手动编码研究
- 主题模型应用:借助Shiny应用探索SDG相关句子的结构主题模型(STM)结果
- 跨区域比较研究:对比美国、欧洲、东亚企业的SDG报告差异