数据集

ErdoWatch_埃尔多安演讲词频分析数据集2014_2020

数据集概述

该数据集包含2014至2020年埃尔多安演讲的词频分析数据，涵盖演讲原文文档、词频统计文件及相关辅助文件。数据集结构分为多个目录，以年份月份组织演讲内容与对应词频分析结果，为研究演讲语言特征和用词趋势提供数据支持。

文件详解

该数据集由多个目录和文件组成，具体说明如下： - 根目录文件: - RTE 2014-2020 Tüm Konuşmaları.docx: 2014-2020年埃尔多安所有演讲原文文档（DOCX格式） - Yasaklı Kelimeler.txt: 包含禁用词汇的文本文件（TXT格式） - Erdowatch 1 Kelime Tablo.xlsx: 词汇表相关Excel文件（XLSX格式） - keilme sayısı.xlsx: 单词计数相关Excel文件（XLSX格式） - Aylara Göre Kelime Sayısı.xlsx: 按月份统计词汇量的Excel文件（XLSX格式） - ErdoWatch Frequency/目录（按年月分类子目录，以2014.12为例）: - 2014.12.docx: 对应年月的演讲原文文档（DOCX格式） - 20200904-215126-word-counts.csv: 单词计数统计文件（CSV格式） - 20200904-215130-bigram-counts.csv: 双词组合计数统计文件（CSV格式） - 20200905-093135-trigram-counts.csv: 三词组合计数统计文件（CSV格式） - Kelime silme op/目录: - silinen kelimeler.txt: 包含已删除词汇的文本文件（TXT格式） - replacer/子目录: - in.txt: 输入文本文件（TXT格式） - out.txt: 输出文本文件（TXT格式） - replacer.py: 词汇替换相关Python代码文件（PY格式）

适用场景

政治话语分析: 研究埃尔多安演讲中的语言特征和用词偏好
词频趋势研究: 分析2014-2020年演讲用词的年度/月度变化趋势
自然语言处理: 用于训练或验证政治文本相关的NLP模型
政治传播学研究: 探究演讲内容与政治语境的关联
禁用词汇分析: 分析演讲中禁用词汇的使用情况及替换规则

数据与资源

j448jgx6p2-3.zipZIP
260.04 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	260.04 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。