MAVC100_Based_音乐视听语音活动检测帧级标注数据集

数据集概述

本数据集为MAVC100音乐视听语料库,包含一百分钟音乐视听内容及帧级标注。标注分为音频标签与视听标签两类,前者覆盖音频流中所有语音、歌唱等事件,后者仅标记目标说话人的语音与歌唱。数据支持音乐场景下的语音活动检测研究。

文件详解

  • 文件名称:Open_dataset_MAVC100.zip
  • 文件格式:ZIP
  • 内容说明:压缩包包含MAVC100语料库的原始视频文件、对应帧级音频标签及帧级视听标签。标签通过标记事件起止时间实现,涵盖Silence、Speech、Singing、Others四类事件,不同类别以数字区分。

数据来源

论文“Rule-Embedded Network for Audio-Visual Voice Activity Detection in Live Musical Video Streams”

适用场景

  • 音乐场景语音活动检测模型训练: 利用帧级标注数据训练区分目标说话人与背景语音的检测模型。
  • 多模态视听融合研究: 对比音频标签与视听标签差异,探索视听信息融合提升检测精度的方法。
  • 音乐内容分析: 识别音乐视频中目标说话人的语音、歌唱时段,支持音乐内容结构化解析。
  • 语音事件分类研究: 基于四类事件标注,开展音乐环境下语音事件分类算法的开发与验证。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 739.33 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。