Charades_STA_Based_语音描述数据集_2024

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Charades_STA_Based_语音描述数据集_2024

数据集概述

本数据集是Charades-STA数据集的扩展，通过"microsoft/speecht5_tts"机器模拟方法将文本转换为音频生成。包含训练、测试音频数据及原始音频压缩包，共3个文件，支持视频定位任务的学术研究，仅限非商业使用。

文件详解

train_audio.json
文件格式：JSON
字段映射介绍：训练集音频相关数据，具体字段未提供预览
test_audio.json
文件格式：JSON
字段映射介绍：测试集音频相关数据，具体字段未提供预览
raw_audios.zip
文件格式：ZIP
字段映射介绍：原始音频文件的压缩包，包含通过语音合成生成的音频资源

数据来源

论文“Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding”

适用场景

视频定位模型训练: 用于训练和优化基于语音描述的视频定位算法，提升模型对音频-视频关联的理解能力
语音合成应用研究: 分析"microsoft/speecht5_tts"生成音频的质量及在视频任务中的适配性
多模态数据融合分析: 探索语音描述与视频内容的关联模式，支持跨模态检索和理解研究
学术论文复现: 为相关论文的实验提供标准数据集，确保研究结果的可重复性

数据与资源

8019213.zipZIP
945.45 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	945.45 MiB
最后更新	2026年1月28日
创建于	2026年1月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？