早期现代英语戏剧数据集

早期现代英语戏剧数据集 数据来源:互联网公开数据 标签:戏剧,英语,文学分析,回归分析,文化历史,作品风格,创作时间

数据概述: 本数据集收录了1585年至1610年间181部英语戏剧作品的早期印刷版转录文本。每部戏剧被视为一个“样本”,其包含的单词频率视为“特征”。数据集以表格形式呈现,适用于回归分析任务。该数据集旨在为文学风格的计算方法研究提供新的见解,特别是在样本数量有限的情况下。

数据用途概述: 该数据集可用于戏剧创作时间的预测分析、文学风格演变研究以及文化历史研究。具体来说,研究人员可以利用数据集中的单词频率特征来预测戏剧的首次公演日期;文学史家可以通过分析特定单词的使用趋势来了解当时戏剧风格的变化;此外,数据集还适用于比较不同戏剧作品之间的风格差异。

举例: 在一项研究中,学者们应用了多种回归方法(包括新引入的基于遗传算法的连分数回归法CFR),对181部戏剧样本进行了分析。通过计算每部戏剧中常见单词的概率,并利用这些概率进行预测,研究人员成功地在训练集和测试集之间实现了80/20的比例分割。该研究揭示了某些关键单词与戏剧体裁之间的有趣相关性,并为理解莎士比亚时代戏剧风格的发展提供了新的视角。

数据集特点: - 数据格式:表格 - 样本数量:181 - 特征:单词频率 - 是否包含缺失值:无

数据集创建背景: 该数据集由澳大利亚研究委员会的发现项目资助而创建,旨在开发新的计算方法以提供关于文学风格的新见解。在戏剧创作时间的预测上,传统方法通常依赖于外部间接证据或戏剧内容和风格的方面,而该数据集提供了一种基于文本特征的预测方法,具有较高的应用价值。

数据预处理: 关于数据预处理的详细描述和使用的软件工具,请参考原文档的第2节“材料与方法”部分,具体链接为:https://doi.org/10.1016/j.eswa.2022.116903

引用信息: Egan, Gabriel, Antonia, Alexis, Greatley-Hirsch, Brett, 和 Craig, Hugh. (2022). 181早期现代英语戏剧:早期版本的TEI编码转录. UCI机器学习仓库. https://doi.org/10.24432/C5XW4R.

摘要: 确定莎士比亚时代剧作的首次公演日期通常需要依靠多个间接外部来源或剧作的内容和风格。识别这些日期对于文学历史和作者风格发展的研究非常重要。本研究选取了1585年至1610年间181部莎士比亚时代的剧作,为每部剧作添加了一个来自标准参考文献的最佳猜测日期作为元数据,并计算了这些样本中个别单词的概率。研究者应用了11种回归方法,以80/20的比例分割训练集和测试集,对剧作的日期进行了预测。通过逐个移除一部剧作并利用最佳猜测日期元数据和概率及权重来推断其日期,研究人员构建了一个日期-概率交互模型。引入的基于遗传算法的连分数回归法CFR能够使用少量变量构建可解释的模型并降低维度。对CFR模型中100次独立运行中最常出现的20个单词的深入分析有助于以语言学和风格学的术语解释趋势。对这些单词子集的分析揭示了某些特征单词与莎士比亚时代剧作体裁之间的有趣相关性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.89 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。