Serial_Speakers_Source_TV剧集标注数据集_2020

数据集概述

本数据集包含《绝命毒师》《权力的游戏》《纸牌屋》3部电视剧的人工标注数据,涵盖剧集的季、集、场景、镜头及语音片段等结构化信息,所有文件为JSON格式,语音文本因版权加密处理,可通过指定工具恢复。

文件详解

  • 文件名称:bb.json
  • 文件格式:JSON
  • 字段映射介绍:包含《绝命毒师》第1至5季数据,定义剧集名称、季(id)、集(id、标题、时长、帧率)、场景(起始点、镜头)、语音片段(起止点、加密文本、说话人、特定集的对话者)
  • 文件名称:got.json
  • 文件格式:JSON
  • 字段映射介绍:包含《权力的游戏》第1至8季数据,结构同bb.json,特定集(如S01E03)含对话者信息
  • 文件名称:hoc.json
  • 文件格式:JSON
  • 字段映射介绍:包含《纸牌屋》第1至2季数据,结构同bb.json,特定集(如S01E01)含对话者信息,集开头含未标注的回顾内容

数据来源

论文“Serial Speakers: a Dataset of TV Series”

适用场景

  • 影视内容分析: 研究电视剧的场景结构、镜头语言及叙事节奏
  • 自然语言处理: 基于语音片段的说话人识别、对话系统训练(需文本恢复)
  • 影视制作研究: 分析不同剧集的季集组织、时长分布等制作特征
  • 版权合规研究: 探索影视数据标注中的版权保护与数据共享平衡策略
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 44.67 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。