漫威电影宇宙对话数据集2008至2019-pdunton

漫威电影宇宙对话数据集2008至2019-pdunton 数据来源:互联网公开数据 标签:漫威,电影,对话,脚本,数据集,MCU,剧本,转录,教育,分析

数据概述: 本数据集包含了漫威电影宇宙(MCU)多部电影中的对话记录。数据来源于原始剧本和转录文本,原始剧本PDF文件由Script Slug提供,转录文本则来自Fandom的Transcripts Wiki。该数据集经过处理,最终生成了一个包含角色对话及上下文信息的CSV文件mcu.csv。数据集涵盖了从2008年至2019年间发布的多部MCU电影,其中个别电影的对话来源于剧本,而大部分电影则来源于Fandom的转录文本。

数据包含以下字段: character:对话角色名称 line:对话内容 movie:电影名称 year:电影上映年份 is_transcript:对话是否来源于转录文本 lines_count:电影中的总对话行数 source_link:数据来源链接

数据用途概述: 该数据集适用于电影对话研究、角色分析、文本挖掘、自然语言处理等多种应用场景。研究人员可以通过分析对话内容,研究MCU电影的叙事风格、角色特征和文化影响;教育者可以利用数据进行电影分析课程的教学;语言模型开发者可以将数据用于训练对话生成模型。此外,该数据集也是电影爱好者了解MCU电影对话内容的宝贵资源。

数据集说明: 详细信息和处理过程可以参考GitHub仓库或联系数据提供者Preston Dunton(邮箱:preston.dunton@gmail.com)。如果发现数据中的错误,或需要使用该数据集进行研究,请联系数据提供者并进行适当的引用。数据集中还包括其他辅助文件,如mcu_subset.csv,仅包含前十角色的对话数据;characters.csv,汇总每个角色在MCU中的参与情况;movies.csv,包含每部电影的元数据。这些文件有助于进一步分析和研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.72 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。