数据集概述
本数据集包含《绝命毒师》《权力的游戏》《纸牌屋》3部电视剧的人工标注数据,涵盖剧集的季、集、场景、镜头及语音片段等结构化信息,所有文件为JSON格式,语音文本因版权加密处理,可通过指定工具恢复。
文件详解
- 文件名称:bb.json
- 文件格式:JSON
- 字段映射介绍:包含《绝命毒师》第1至5季数据,定义剧集名称、季(id)、集(id、标题、时长、帧率)、场景(起始点、镜头)、语音片段(起止点、加密文本、说话人、特定集的对话者)
- 文件名称:got.json
- 文件格式:JSON
- 字段映射介绍:包含《权力的游戏》第1至8季数据,结构同bb.json,特定集(如S01E03)含对话者信息
- 文件名称:hoc.json
- 文件格式:JSON
- 字段映射介绍:包含《纸牌屋》第1至2季数据,结构同bb.json,特定集(如S01E01)含对话者信息,集开头含未标注的回顾内容
数据来源
论文“Serial Speakers: a Dataset of TV Series”
适用场景
- 影视内容分析: 研究电视剧的场景结构、镜头语言及叙事节奏
- 自然语言处理: 基于语音片段的说话人识别、对话系统训练(需文本恢复)
- 影视制作研究: 分析不同剧集的季集组织、时长分布等制作特征
- 版权合规研究: 探索影视数据标注中的版权保护与数据共享平衡策略