YouTube_RAI_官方频道视频分段数据集_训练测试集

数据集概述

本数据集包含YouTube官方RAI频道(https://www.youtube.com/@rai)中时长超过5分钟的视频信息,涵盖视频ID、标题及分段数据。每个视频的分段数据以列表形式记录各章节的开始时间(毫秒)和章节标题,数据集分为训练集与测试集两个不重叠的部分。

文件详解

  • 文件名称:train_yt_over5min.json
  • 文件格式:JSON
  • 字段映射介绍:包含2460条训练数据,每条记录包含视频id、title(标题)、segmentation(分段列表,每个元素含start time(开始时间,毫秒)和chapter title(章节标题))
  • 文件名称:test_yt_over5min.json
  • 文件格式:JSON
  • 字段映射介绍:包含614条测试数据,字段结构与训练集一致,包含视频id、title、segmentation

数据来源

YouTube官方RAI频道(https://www.youtube.com/@rai

适用场景

  • 视频内容结构化分析:用于解析长视频的章节划分逻辑,构建视频内容层级结构
  • 视频章节自动标注:基于现有分段数据训练模型,实现视频章节的自动识别与标题生成
  • 多媒体数据训练测试:作为视频处理模型的训练与测试数据集,验证算法性能
  • 视频内容检索优化:利用分段数据提升视频内容检索的精准度,支持章节级内容定位
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.33 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。