找到546个数据集

标签: 语音处理

过滤结果
  • TimeSide_API音频处理网络服务演示文档

    2025年12月7日   

    数据集概述 本数据集为一份演示文档,介绍如何使用TimeSide REST API作为远程服务处理音频描述符,以将分析结果嵌入网页应用。文档还展示了新版TimeSide播放器作为使用JavaScript SDK开发可视化与协作标注应用的示例。 文件详解 文件名称:WAC_2022_paper_47 (1).pdf 文件格式:PDF...
    packageimg
  • 俄语语音重音感知研究与语音识别技术应用

    2025年12月16日   

    数据集概述 本数据集聚焦俄语语音重音感知问题,结合语音识别技术,分析俄语作为外语学习者的语音特点,通过神经网络算法识别其语音偏差,评估重音对沟通质量的影响,为俄语教学提供实践建议。 文件详解 文件名称: Turg’unboyev Abdullajon Abdubanno o’g’li.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • LibriCount10_0dB_说话人数量估计数据集

    2025年12月16日   

    数据集概述 该数据集为说话人数量估计任务提供合成数据,基于LibriSpeech CleanTest数据集构建,包含0至10个说话人同时发声的5秒音频,混合信噪比为0分贝,每个录音文件名含真实说话人数,配套JSON标注文件记录说话人性别、ID及语音活动信息。 文件详解 文件名称:LibriCount10-0dB.zip 文件格式:ZIP压缩包...
    packageimg
  • 帕皮阿门托语医疗环境关键词识别语音转文本数据集

    2025年12月16日   

    数据集概述 本数据集为帕皮阿门托语医疗环境下的关键词识别语音转文本研究开发,包含七个类别(六个关键词和一个未知类别)的语音样本,经过滤后共16766个样本,每个样本为一秒钟录音生成的频谱图,用于推动帕皮阿门托语关键词识别研究。 文件详解 文件名称:papiamento_keyword_spotting_dataset.zip...
    packageimg
  • 自动医疗转录数据集

    2025年12月16日   

    数据集概述 该数据集用于训练机器学习模型,从医患对话中自动生成精神科病例记录。通过学生模拟录制对话音频,经AI语音识别生成转录文本,并由学生基于转录文本撰写病例记录,为医疗转录自动化研究提供数据支持。 文件详解 文件名称: nazmulkazi/dataset_automated_medical_transcription-v1.0.zip 文件格式:...
    packageimg
  • 辅音挑战语料库

    2025年12月16日   

    数据集概述 该语料库提供用于支持人机辅音识别对比(安静与噪声环境)的数据集。包含二十四名英语母语者(十二女、十二男)的语音数据,覆盖二十四个英语辅音在九种元音环境、两种重音类型下的发音,共一万零三百六十八个语音样本,适用于自动语音识别实验的训练、开发和测试。 文件详解 技术说明文件: readme.pdf:...
    packageimg
  • 阿拉伯语语音命令数据集

    2025年12月16日   

    数据集概述 该数据集包含12000条阿拉伯语语音命令数据对(语音信号与对应关键词),覆盖40个关键词,每个关键词300条音频(30位参与者×10次录制)。音频为1秒时长、16kHz采样率的WAV格式,另有独立背景噪声文件,适用于语音识别领域的关键词检测任务。 文件详解 主数据压缩包: 文件名称: abdulkaderghandoura/arabic-...
    packageimg
  • Saraga_Audiovisual_Mini_Based_阿南达纳塔那普拉卡沙姆表演多模态数据完整样本

    2025年12月15日   

    数据集概述 该数据集是Saraga Audiovisual数据集的子集样本,结构与原始数据集一致。包含音频、姿态估计、元数据及视频四类压缩文件,仅涵盖Adithi Prahlad表演的《Ananda Natana Prakasham》单一曲目内容。 文件详解 saraga audio.zip:压缩文件,包含所有多轨音频文件及其对应的混合文件...
    packageimg
  • 双耳脉冲响应数据集

    2025年12月15日   

    数据集概述 该数据集包含在消声室中录制的双耳脉冲响应数据,使用无耳道的B&K人头模拟器(HATS)通过单段十二秒扫频信号采集。消声室配备六十四只全球形排列的扬声器,扬声器距人头中心距离为二点四米,且已预先进行均衡处理。数据集提供长短两种时长的脉冲响应文件及扬声器位置信息,采样频率为四万八千赫兹。 文件详解 核心数据文件:...
    packageimg
  • 人类语音指向性测量数据集对比补充材料

    2025年12月15日   

    数据集概述 本数据集为19项人类语音指向性研究的对比数据库,含不同研究的测量数据(如全句平均、音素依赖数据)、采样网格(水平平面/球面)及频率处理方式(频带平均/传递函数),还包含13名受试者德语平衡句语音指向性数据及相关文件。 文件详解...
    packageimg
  • MUSDB18_Lyrics_Based_多语言歌词扩展文本分析完整数据

    2025年12月15日   

    数据集概述 本数据集是MUSDB18数据集的歌词标注扩展,包含九十八首训练集歌曲与四十五首测试集歌曲的英文歌词人工转录文本。歌词按三至十二秒自然停顿分段,部分有一秒重叠,提供词音素分解及辅助脚本,适用于文本辅助歌声分离等研究。 文件详解 README.txt: TXT格式,包含数据集说明、使用条款、引用要求、数据结构及文件说明等核心信息...
    packageimg
  • Helena_Cuesta_Cantoria_Based_伊比利亚声乐复调多轨完整数据集

    2025年12月14日   

    数据集概述 该数据集是由专业声乐四重奏Cantoría录制的多轨数据集,包含十一首伊比利亚黄金时代声乐复调曲目,同时提供自动提取的基频(F0)轨迹数据,支持音乐声学与演唱分析研究。 文件详解 文件名称: CantoriaDataset_v1.0.0.zip 文件格式: ZIP压缩包 包含内容:...
    packageimg
  • 生成式歌声分离模型客观评估指标数据集

    2025年12月14日   

    数据集概述 本数据集为WASPAA 2025相关论文的配套数据,包含用于计算生成式歌声分离模型客观评估指标的音频数据、DCR测试用响度归一化刺激音频、含DMOS分数与指标的CSV文件及SRCC计算演示Python脚本,提供完整评估资源。 文件详解 文件名称: gensvs_eval_data.zip 文件格式: ZIP压缩包 包含内容:...
    packageimg
  • 语音情感合成数据库

    2025年12月14日   

    数据集概述 本数据集为公开的语音情感合成数据库,包含基于双音素合成器规则操控生成的三种基本情绪及中性表达的合成语音数据,经机器学习实验验证可用于训练自然语音情感识别模型。 文件详解 文件名称: syntact_cat.zip 文件格式: ZIP压缩包 内容说明: 包含用于语音情感识别的合成语音数据,具体文件结构需解压后查看 适用场景 语音情感识别研究:...
    packageimg
  • 基于隐马尔可夫模型的语音特征提取数据集

    2025年12月14日   

    数据集概述 该数据集围绕语音识别展开,提出结合隐马尔可夫模型(HMM)的混合语音识别模型,通过噪声去除、语音停顿检测、分帧加窗特征提取等阶段实现语音转文本,使用Praat工具实施,模型评估指标为F值(98%)和准确率(99%)。 文件详解 文件名称:Suppl File - Speech to Text - Latest.pdf 文件格式:PDF...
    packageimg
  • 圣维森特岛佛得角克里奥尔语数据集2019

    2025年12月13日   

    数据集概述 本数据集为“2019年科隆城市田野调查”项目成果,包含圣维森特岛佛得角克里奥尔语的语言录音、文本转录及社会语言学分析资料,涵盖原始音频、标注文件、参与者信息与研究说明,为克里奥尔语研究提供多类型数据支持。 文件详解 该数据集包含11个文件,按类型分类说明如下: - PDF文档类(共4个): -...
    packageimg
  • 情感合成音频数据集2018

    2025年12月13日   

    数据集概述 本数据集为情感合成音频数据集,包含一百四十四段合成音频文件,由四十位听众基于效价和唤醒度两个维度对音频的感知情绪进行标注。数据可用于研究合成音频的情绪感知规律,为情感计算领域提供支持。 文件详解 文件名称: emoSynth-DB-fix.zip 文件格式: ZIP压缩包 (.zip) 内容说明:...
    packageimg
  • 帕金森病患者与健康人群语音特征数据集_Rasta_PLP_V2

    2025年12月13日   

    数据集概述 该数据集包含西班牙卡斯蒂利亚语使用者中,四十七名帕金森病患者与三十二名健康对照者的语音Rasta-PLP特征数据,涉及六个句子的语音记录。数据还补充了患者的UPDRS评分、H&Y分期、确诊年限及年龄等临床信息,为帕金森病语音检测研究提供支持。 文件详解 语音特征压缩文件(共六个):...
    packageimg
  • 声学研究用人体几何结构数据库IHA_v1

    2025年12月13日   

    数据集概述 该数据集是IHA数据库的首个版本,包含十例人体几何结构样本,涵盖躯干、头部及完整外耳(含耳道与鼓膜)。数据支持两种3D对象格式,为声学研究提供基础数据。 文件详解 数据集包含三个文件,具体说明如下: - IHA_database_License_Info_v1.pdf:PDF格式文档文件,提供数据库的许可信息。 -...
    packageimg
  • 语音转灯具语音数据集

    2025年12月13日   

    数据集概述 该数据集包含一千零六十个音频文件,总时长约一点一八小时,收录了五名受试者(两名女性、三名男性)用英语和西班牙语朗读“文本转灯具”数据集测试样本提示语的语音录音,数据采集符合伦理规范与数据保护法规。 文件详解 核心文件: data.zip:压缩包格式,包含所有加密的音频文件,需使用指定脚本解密 解密工具:...
    packageimg