ErdoWatch_埃尔多安演讲词频分析数据集2014_2020

数据集概述

该数据集包含2014至2020年埃尔多安演讲的词频分析数据,涵盖演讲原文文档、词频统计文件及相关辅助文件。数据集结构分为多个目录,以年份月份组织演讲内容与对应词频分析结果,为研究演讲语言特征和用词趋势提供数据支持。

文件详解

该数据集由多个目录和文件组成,具体说明如下: - 根目录文件: - RTE 2014-2020 Tüm Konuşmaları.docx: 2014-2020年埃尔多安所有演讲原文文档(DOCX格式) - Yasaklı Kelimeler.txt: 包含禁用词汇的文本文件(TXT格式) - Erdowatch 1 Kelime Tablo.xlsx: 词汇表相关Excel文件(XLSX格式) - keilme sayısı.xlsx: 单词计数相关Excel文件(XLSX格式) - Aylara Göre Kelime Sayısı.xlsx: 按月份统计词汇量的Excel文件(XLSX格式) - ErdoWatch Frequency/目录(按年月分类子目录,以2014.12为例): - 2014.12.docx: 对应年月的演讲原文文档(DOCX格式) - 20200904-215126-word-counts.csv: 单词计数统计文件(CSV格式) - 20200904-215130-bigram-counts.csv: 双词组合计数统计文件(CSV格式) - 20200905-093135-trigram-counts.csv: 三词组合计数统计文件(CSV格式) - Kelime silme op/目录: - silinen kelimeler.txt: 包含已删除词汇的文本文件(TXT格式) - replacer/子目录: - in.txt: 输入文本文件(TXT格式) - out.txt: 输出文本文件(TXT格式) - replacer.py: 词汇替换相关Python代码文件(PY格式)

适用场景

  • 政治话语分析: 研究埃尔多安演讲中的语言特征和用词偏好
  • 词频趋势研究: 分析2014-2020年演讲用词的年度/月度变化趋势
  • 自然语言处理: 用于训练或验证政治文本相关的NLP模型
  • 政治传播学研究: 探究演讲内容与政治语境的关联
  • 禁用词汇分析: 分析演讲中禁用词汇的使用情况及替换规则
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 260.04 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。