美国国会演讲文本意识形态分析数据集USCongressSpeechTextIdeologyAnalysis-vdudani
数据来源:互联网公开数据
标签:政治文本, 意识形态分析, 自然语言处理, 文本挖掘, 情感分析, 国会演讲, 机器学习, 语料库
数据概述:
该数据集包含来自美国国会演讲的文本数据,旨在用于意识形态分析和文本挖掘研究。主要特征如下:
时间跨度:数据涵盖多个年份,从1974年至2018年,反映了美国国会演讲随时间的变化。
地理范围:数据来源于美国国会,包括参议院和众议院的演讲记录。
数据维度:数据集包含多个字段,如“branch”(分支机构,即参议院或众议院)、“congressID”(国会届数)、“ideology_score”(意识形态评分)、“page”(页码)、“part”(部分)、“speaker”(演讲者)、“year”(年份)、“sentence”(演讲文本)、“sentence_raw”(原始演讲文本)和“sentence_unclean”(未经处理的演讲文本)。
数据格式:数据集以CSV格式提供,包含test.csv, train.csv和trainFAKEDATA.csv三个文件,便于进行数据分析和处理。其中trainFAKEDATA.csv包含更少的字段。
来源信息:数据来源于美国国会演讲记录,并经过了初步的清洗和处理,提供了原始文本和处理后的文本。
该数据集适合用于政治学、语言学和计算机科学等领域的研究,特别是文本分析、情感分析和机器学习模型的构建。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于政治学、社会学和传播学等领域的学术研究,如意识形态的演变、政治话语分析、演讲者立场分析等。
行业应用:可以为媒体、咨询公司和政府机构提供数据支持,用于政治风险评估、舆情监测和政策分析。
决策支持:支持政府部门和非政府组织进行政策制定、公众沟通和战略规划。
教育和培训:作为政治学、社会科学和数据科学等课程的辅助材料,帮助学生和研究人员理解政治文本分析方法和技术。
此数据集特别适合用于探索美国国会演讲文本与意识形态之间的关系,以及构建预测演讲者意识形态的机器学习模型,从而帮助用户更好地理解政治话语和公众观点。