数据集概述
该数据集包含2014至2020年埃尔多安演讲的词频分析数据,涵盖演讲原文文档、词频统计文件及相关辅助文件。数据集结构分为多个目录,以年份月份组织演讲内容与对应词频分析结果,为研究演讲语言特征和用词趋势提供数据支持。
文件详解
该数据集由多个目录和文件组成,具体说明如下:
- 根目录文件:
- RTE 2014-2020 Tüm Konuşmaları.docx: 2014-2020年埃尔多安所有演讲原文文档(DOCX格式)
- Yasaklı Kelimeler.txt: 包含禁用词汇的文本文件(TXT格式)
- Erdowatch 1 Kelime Tablo.xlsx: 词汇表相关Excel文件(XLSX格式)
- keilme sayısı.xlsx: 单词计数相关Excel文件(XLSX格式)
- Aylara Göre Kelime Sayısı.xlsx: 按月份统计词汇量的Excel文件(XLSX格式)
- ErdoWatch Frequency/目录(按年月分类子目录,以2014.12为例):
- 2014.12.docx: 对应年月的演讲原文文档(DOCX格式)
- 20200904-215126-word-counts.csv: 单词计数统计文件(CSV格式)
- 20200904-215130-bigram-counts.csv: 双词组合计数统计文件(CSV格式)
- 20200905-093135-trigram-counts.csv: 三词组合计数统计文件(CSV格式)
- Kelime silme op/目录:
- silinen kelimeler.txt: 包含已删除词汇的文本文件(TXT格式)
- replacer/子目录:
- in.txt: 输入文本文件(TXT格式)
- out.txt: 输出文本文件(TXT格式)
- replacer.py: 词汇替换相关Python代码文件(PY格式)
适用场景
- 政治话语分析: 研究埃尔多安演讲中的语言特征和用词偏好
- 词频趋势研究: 分析2014-2020年演讲用词的年度/月度变化趋势
- 自然语言处理: 用于训练或验证政治文本相关的NLP模型
- 政治传播学研究: 探究演讲内容与政治语境的关联
- 禁用词汇分析: 分析演讲中禁用词汇的使用情况及替换规则