YouTube视频物体检测标注数据集-物体检测-视频理解-视频分析
数据来源:互联网公开数据
标签:视频分析,物体检测,计算机视觉,视频标注,YouTube,深度学习,机器学习,图像识别,目标追踪
数据概述:
本数据集“YouTube-BoundingBoxes”是一个大规模的视频数据集,包含约38万个时长为15-20秒的视频片段,这些视频片段来自24万个公开的YouTube视频。数据集中每个视频片段都经过了人工标注,以每秒一帧的频率提供了高质量的单物体边界框注释。这些视频片段是从自然场景中自动选取的,没有经过编辑或后期处理,其录制质量通常类似于手持手机摄像头。数据集中共有1050万条人类标注,包含560万个紧密的边界框,用于标记视频帧中被追踪的物体。数据集中的物体属于23个不同的类别。通过使用一系列精确度逐渐提高的人工标注者,确保了每个类别的标注准确率超过95%,并且边界框与被追踪物体紧密贴合。
数据用途概述:
该数据集主要用于推动机器学习在视频理解领域的进步。 它可以用于训练和评估各种视频分析模型,包括但不限于物体检测、目标跟踪、行为识别和视频内容理解等。研究人员可以使用此数据集开发和改进用于视频分析的算法,例如,提升物体检测算法在真实世界视频中的准确性和鲁棒性; 也可以用于研究如何从视频中自动提取有意义的信息。 此外,该数据集也适用于计算机视觉、深度学习等领域的教学和研究。