数据集 - 海数据

NUBUC_Based_语境控制口语故事语料库数据

2026年1月31日 30 135 70

数据集概述本数据集为NyU-BU语境控制故事语料库（NUBUC），是兼顾自然性与实验可控性的口语语料库。包含8个独特故事的16段高质量录音，由男女演员各录制一遍，每故事含128句约2000词，围绕关键词构建，关键词在多语言维度匹配，语境参数（先验/局部语境强弱、句子位置早晚）被操控。文件详解文件名称：public.zip 文件格式：ZIP...

ZIP

lexibank_Papuan_Voices巴布亚语音数据集

2026年1月29日 30 78 66

数据集概述本数据集为Papuan Voices语音数据，包含一份压缩文件，主要内容涉及巴布亚地区的语音记录，属于语言类数据集，可用于语言学相关研究与分析。文件详解文件名称：lexibank/papuanvoices-v1.2.zip 文件格式：ZIP...

ZIP

The_outdated_open_data_数据集及实验结果

2026年1月29日 30 46 7

数据集概述本数据集包含过时开放数据相关的数据集及实验结果，涉及自然语言处理、人工智能、深度学习等技术关键词，通过压缩包和文本文件的形式存储，为开放数据研究提供基础数据支撑。文件详解文件名称：CodeData.zip 文件格式：ZIP 字段映射介绍：压缩包文件，包含与过时开放数据相关的数据集及实验结果的代码或数据内容...

ZIP

kadazan_digits_Based_卡达山语数字语音数据集

2026年1月28日 30 180 145

数据集概述...

ZIP

srWac_Based_塞尔维亚_克罗地亚语重音标准动词发音数据库

2026年1月27日 30 71 37

数据集概述本数据集为塞尔维亚语标准塞尔维亚-克罗地亚语中3000个最常用动词的重音标注数据库，收录了来自尼什、博尔和扎耶查尔的四位重音标准使用者对每个动词的限定式和非限定式发音及重音位置标注，旨在呈现该语言的重音标准情况。文件详解文件名称：Stress_standard_Serbian_3000verbs.xlsx 文件格式：XLSX...

ZIP

is24_Interspeech2024_欧洲议会录音多语言测试集

2026年1月27日 30 60 2

数据集概述本数据集是从欧洲议会会议录音中提取的多语言测试集，用于语言识别和语音识别任务。包含15个多语言音频文件，总时长约2小时56分34秒，覆盖19种语言，经人工核对语言标签时间戳并补充官方文本转录，可支持多语言语音技术的模型测试与评估。文件详解文件名称：tst_is24.zip 文件格式：ZIP...

ZIP

PHOIBLE_Online_Based_语音数据库数据_2014版

2026年1月27日 30 88 80

数据集概述本数据集为PHOIBLE Online语音数据库2014版，由Steven Moran、Daniel McCloy和Richard Wright主编，包含全球语言的语音系统数据，是语言学领域研究语音多样性的基础资源，仅含一个压缩文件。文件详解文件名称：phoible-v2014.zip 文件格式：ZIP（压缩包）...

ZIP

ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1

2026年1月20日 30 210 78

数据集概述本数据集为ArchiMob语料库Release 1，包含瑞士境内使用的德语变体口语转录文本，是首个瑞士德语长文本电子资源，总规模达528381个词元，可用于形态句法特征空间分布研究及自然语言处理任务。文件详解文件名称：ArchiMob_Release1_160812.zip 文件格式：ZIP（压缩包）...

ZIP

帕拉普兰库尼亚特贾语_基于皮詹塔贾拉语和扬库尼亚特贾语的方言_动词词库数据集

2026年1月20日 30 168 119

数据集概述本数据集为Pitjantjatjara/Yankunytjatjara语言的动词词库，包含动词形态、语音、词素等结构化信息，由墨尔本大学Sasha Wilmoth创建。数据涵盖动词形式表、语音表、词素表等11个文件，支持对该澳大利亚原住民语言动词系统的深入分析。文件详解数据文件（CSV格式，共7个）...

ZIP

Chinese_Speech_to_Text_Based中文学习者语音样本与转录数据

2026年1月18日 30 46 0

数据集概述本数据集包含31名学习者的中文语音样本（单词语音），以及对应的转录文本和准确率评分，用于支持中文语音转文字相关的研究与应用。数据集仅包含一个文件，无训练/测试、数据/标签或原始/处理数据的划分。文件详解文件名称：Dataset Chinese Speech to Text.xlsx 文件格式：XLSX...

ZIP

Multi_CAST_Based_多语言口语文本标注语料库_Mandarin_Version2311

2026年1月4日 30 55 11

数据集概述本数据集为Multi-CAST多语言口语标注文本语料库的中文部分，由Maria Vollmer于2023年贡献，收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中。数据以压缩包形式提供，是研究中文口语标注文本的基础语料资源。文件详解文件名称：Multi-...

ZIP

Canis_familiaris_Based_家犬单调语音流意义内容识别实验数据

2026年1月15日 30 187 161

数据集概述本数据集围绕家犬（Canis familiaris）对人类单调语音流中意义内容的识别能力展开，包含实验设计、样本数据、结果统计等核心内容。实验通过向家犬播放含意义/无意义短语的单调语音，观察其对主人的注视反应，验证家犬在无夸张韵律提示下识别语音意义的能力，为动物行为学研究提供支撑。文件详解文档类文件（.docx格式）...

ZIP

Multi_CAST_Source_Northern_Kurdish多语言语音文本标注数据2311

2026年1月7日 30 60 43

数据集概述本数据集为Multi-CAST多语言语音文本标注语料库的一部分，包含Northern Kurdish语言的语音文本标注数据。该语料库由班贝格大学发布，是多语言口语文本标注资源的重要组成，可用于相关语言研究与自然语言处理应用。文件详解文件名称：Multi-CAST/mcnkurd-v2311.zip 文件格式：ZIP...

ZIP

AI_Controlled_Vocabulary_人工智能研究创新领域受控词汇表_Version2

2026年1月7日 30 204 193

数据集概述本数据集为人工智能（AI）领域研究与创新活动设计的受控词汇表，由SIRIS Academic联合意大利艾米利亚-罗马涅大区ART-ER与西班牙加泰罗尼亚政府构建。词汇表基于ACM分类系统，整合领域专家意见，覆盖机器学习、计算机视觉等六大子领域，共收录833个关键词，用于标准化识别AI相关研发项目与学术文献。文件详解文件名称：AI...

ZIP

Multi_CAST_Source_Sanzhi_Dargwa多语言语音标注文本数据_2311版本

2026年1月6日 30 205 161

数据集概述本数据集为Multi-CAST多语言标注语音文本语料库的一部分，包含Sanzhi Dargwa语言的标注语音文本数据，版本为2311。数据集由班贝格大学发布，是多语言语音语言学研究的结构化资源，仅包含一个压缩文件。文件详解文件名称：Multi-CAST/mcsanzhi-v2311.zip 文件格式：ZIP...

ZIP

Data_from_PlosOne_人工耳蜗单极检测阈值对神经兴奋空间选择性及语音识别影响的研究数据

2026年1月4日 30 111 110

数据集概述本数据集围绕人工耳蜗单极检测阈值展开研究，旨在探究其对神经兴奋空间选择性的预测能力及对语音识别的影响。通过测量不同刺激参数下的检测阈值，结合前掩蔽范式评估神经兴奋空间选择性，并测试不同电极激活方案下的语音识别表现，为人工耳蜗优化提供数据支持。文件详解...

ZIP

Sharvard_Spanish_Balanced_音素平衡西班牙语语音数据完整集合

2025年12月21日 30 63 31

数据集概述该数据集包含音素平衡的西班牙语句子列表及男女说话人的完整句子录音，适用于语音清晰度测试，基于V. Aubanel等2014年发表的相关论文构建。文件详解文件名称：lists-ortho.pdf；文件格式：PDF；内容：音素平衡句子列表，关键词为粗体文件名称：lists-phonemic-...

ZIP

AUGUSTA语音转文本语言模型训练数据集

2025年12月22日 30 139 59

数据集概述该数据集包含用于微调AUGUSTA语音转文本模型的元数据和精选数据集，AUGUSTA是基于OpenAI Whisper定制的模型，可将南蒂罗尔方言语音转录为标准德语。文件详解文件名称: augusta_data-main.zip 文件格式: ZIP压缩包文件内容:...

ZIP

Speech_To_Docker_Based_语音转Docker指令音频完整数据

2025年12月21日 30 140 3

数据集概述该数据集包含12名受试者（4名女性和8名男性）朗读“text-to-docker”数据集测试样本提示词的英文语音录音，共3192个音频文件，时长约3.92小时。数据采集遵循伦理规范，已获得受试者知情同意。文件详解数据压缩包: data.zip: ZIP格式压缩包，包含所有加密的音频文件，需通过decrypt.py脚本解密获取原始音频...