Charades_STA_Based_语音描述数据集_2024

数据集概述

本数据集是Charades-STA数据集的扩展,通过"microsoft/speecht5_tts"机器模拟方法将文本转换为音频生成。包含训练、测试音频数据及原始音频压缩包,共3个文件,支持视频定位任务的学术研究,仅限非商业使用。

文件详解

  • train_audio.json
  • 文件格式:JSON
  • 字段映射介绍:训练集音频相关数据,具体字段未提供预览
  • test_audio.json
  • 文件格式:JSON
  • 字段映射介绍:测试集音频相关数据,具体字段未提供预览
  • raw_audios.zip
  • 文件格式:ZIP
  • 字段映射介绍:原始音频文件的压缩包,包含通过语音合成生成的音频资源

数据来源

论文“Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding”

适用场景

  • 视频定位模型训练: 用于训练和优化基于语音描述的视频定位算法,提升模型对音频-视频关联的理解能力
  • 语音合成应用研究: 分析"microsoft/speecht5_tts"生成音频的质量及在视频任务中的适配性
  • 多模态数据融合分析: 探索语音描述与视频内容的关联模式,支持跨模态检索和理解研究
  • 学术论文复现: 为相关论文的实验提供标准数据集,确保研究结果的可重复性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 945.45 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。