数据集 - 海数据

尼泊尔语语音转录数据集

2026年3月3日 30 111 79

尼泊尔语语音转录数据集_Nepali_Speech_Transcription_Dataset 数据来源：互联网公开数据标签：语音识别, 语音转录, 尼泊尔语, 声学模型, 语言模型, 语音数据, 深度学习, 自然语言处理数据概述：该数据集包含来自开放资源的尼泊尔语语音数据，记录了尼泊尔语语音的音频文件及其对应的文本转录。主要特征如下：...

ZIP

Mondzish_Based_中国采集词汇录音转录数据库_2012_2015

2026年1月20日 30 58 39

数据集概述本数据集为Mondzish（Mangish）词汇数据库，包含2012-2015年在中国采集的音频录音转录内容，是单一文件的词汇资源，可用于Mondzish语言的词汇研究与分析。文件详解文件名称：Mondzish_lexical_database.xlsx 文件格式：XLSX...

ZIP

Broca_Aphasia_Based_捷克Broca失语症患者语音转录研究数据

2026年1月19日 30 148 29

数据集概述本数据集为捷克视角下探究失语症患者言语与手势关系研究的一部分，内容是一名Broca失语症男性患者复述卡通《小羊肖恩》故事的语音转录文件，共包含1个文档文件，用于支持失语症相关的言语特征分析。文件详解文件名称：transcription_male_broca_aphasia_2_Janecka.docx 文件格式：DOCX...

ZIP

OfficeDial_Taskmaster_Based_多噪声场景人机对话数据集

2026年1月19日 30 178 41

数据集概述本数据集为json格式文件，包含用户与智能语音助手（IVA）在不同噪声场景下的对话内容，格式适配自Taskmaster数据集结构。数据以对话为核心单元，记录对话ID、场景类型、噪声等级及多轮 utterance 信息，可用于智能语音交互系统的鲁棒性分析与优化。文件详解 README.md 文件格式：Markdown...

ZIP

aphasia_Speech_Gesture_捷克视角女性非失语症者语音转录数据

2026年1月15日 30 174 53

数据集概述本数据集为捷克视角下探索失语症患者语音与手势关系研究中的女性非失语症者语音转录数据，内容为被试复述卡通《小羊肖恩》故事的语音记录转录，用于与失语症患者数据对比分析，共包含1个文件。文件详解文件名称：transcription of females without aphasia_Janecka.docx 文件格式：DOCX...

ZIP

PHON_Replication_Data_西班牙语_加泰罗尼亚语学习者英语发音准确性影响因素研究数据集

2026年1月1日 30 129 67

数据集概述本数据集为英语作为外语发音准确性影响因素研究的复现数据，包含西班牙语-加泰罗尼亚语中级学习者的英语单词发音语音转录分析。数据记录学习者发音表现，支持探究发音准确性的影响因素，包含2个文件，覆盖数据与说明文档两类内容。文件详解 README.txt 文件格式：TXT...

ZIP

LJ语音_国际音标对齐转录数据集

2025年12月11日 30 201 74

数据集概述该数据集为LJ语音数据提供国际音标（IPA）对齐转录内容，包含文本网格文件、词汇表、音素时长分析图表、发音词典及结果复现脚本，支持语音处理相关研究与应用。文件详解 grids.zip：压缩文件，包含所有音频对应的TextGrid文件，每个文件含三个层级： words层级：对齐的标准化英文单词...

ZIP

开罗Darb_al_Ahmar地区Leyla阿拉伯语与法语录音描述及评论转录数据集2011_10_27

2025年12月10日 30 154 148

数据集概述本数据集包含2011年10月27日埃及开罗Darb al-Ahmar地区参与者Leyla的录音描述及评论转录文件，涵盖阿拉伯语原文及法语译文，是“耳朵里的麦克风”双耳听觉实验的一部分，记录了参与者对自身录制城市声音路线的后验反馈。文件详解压缩文件： Archive Word docs Arabic & French...

ZIP

CitySpeechMix语音与城市声音混合模拟数据集

2025年12月7日 30 189 178

数据集概述本数据集是模拟音频数据集，将LibriSpeech的语音片段与SONYC-UST的环境录音混合，生成语音与背景噪声的受控混合数据。包含三百七十一条混合音频和三百七十一条无语音城市环境录音，每条音频时长十秒，附语音转录和环境声音类别标签。文件详解压缩文件: cityspeechmix.zip: 包含数据集核心内容，分为两个子文件夹...

ZIP

THCHS_30_国际音标对齐转录数据集

2025年12月4日 30 204 14

数据集概述该数据集为OpenSLR平台THCHS-30数据集提供国际音标（IPA）对齐转录，包含标点添加、静音标记及音素时长标记，标注文件首尾静音，支持语音处理相关研究。文件详解压缩文件: grids.zip:...

ZIP

格鲁吉亚语语音片段数据集

2025年10月5日 30 20 13

格鲁吉亚语语音片段数据集_Georgian_Speech_Segments_Dataset 数据来源：互联网公开数据标签：语音识别, 声学模型, 语音数据, 格鲁吉亚语, 语音转录, 机器学习, 语料库, 音频分析数据概述：该数据集包含来自格鲁吉亚语的语音片段，记录了不同说话人的语音录音及其对应的文本转录。主要特征如下：...

ZIP

阿拉伯语口语语音转录数据集

2025年9月16日 30 75 2

阿拉伯语口语语音转录数据集_Arabic_Spoken_Speech_Transcription_Dataset 数据来源：互联网公开数据标签：语音识别, 口语, 阿拉伯语, 语音转录, 声学模型, 语言学, 情感分析, 埃及阿拉伯语数据概述：该数据集包含来自公开渠道的阿拉伯语口语语音数据，并附带相应的文本转录信息。主要特征如下：...

ZIP

白俄罗斯语语音转录数据集

2025年8月15日 30 26 2

白俄罗斯语语音转录数据集_Belarusian_Speech_Transcription_Dataset 数据来源：互联网公开数据标签：语音识别, 语音转录, 语音合成, 声学模型, 语言模型, 白俄罗斯语, 语音数据, 深度学习数据概述：...

ZIP

人工智能教学视频语音转录数据集

2025年8月6日 30 18 1

人工智能教学视频语音转录数据集_Artificial_Intelligence_Teaching_Video_Speech_Transcription 数据来源：互联网公开数据标签：语音识别, 自然语言处理, 文本分析, 机器学习, 教学视频, 语音转录, 数据标注, 数据集数据概述：...

ZIP

阿拉伯语语音转录数据集

2025年7月30日 30 11 7

阿拉伯语语音转录数据集_Arabic_Speech_Transcription_Dataset 数据来源：互联网公开数据标签：语音识别, 语音转录, 阿拉伯语, 声学模型, 文本分析, 多模态数据, 语音情感, 数据标注数据概述：该数据集包含阿拉伯语语音数据及其对应的文本转录，旨在为语音识别和相关研究提供支持。主要特征如下：...

ZIP

印地语语音转录数据集

2025年7月7日 30 57 6

印地语语音转录数据集_Hindi_Speech_Transcription_Dataset 数据来源：互联网公开数据标签：语音识别, 语音转录, 印地语, 声学模型, 语言模型, 语音数据集, 深度学习, 印度数据概述：该数据集包含来自多个来源的印地语语音数据，记录了印地语语音的音频文件及其对应的文本转录。主要特征如下：...

ZIP

越南语语音转录数据集_Vietnamese_Speech_Transcription_Dataset

2025年6月23日 30 61 50

越南语语音转录数据集_Vietnamese_Speech_Transcription_Dataset 数据来源：互联网公开数据标签：语音识别, 语音转录, 越南语, 语音数据集, 文本标注, 自然语言处理, 声学模型, 深度学习数据概述：...

ZIP

多语言语音转录数据集

2025年5月31日 30 122 117

多语言语音转录数据集数据来源：互联网公开数据标签：多语言,语音识别,说话人识别,语音转录,语言学研究,年龄分布,性别分布,口音分析,社会语言学数据概述：...

ZIP

马达加斯加语语音转录数据集MalagasySpeech-to-TextDataset-misandratrarazafy

2025年5月29日 30 130 92

马达加斯加语语音转录数据集MalagasySpeech-to-TextDataset-misandratrarazafy 数据来源：互联网公开数据标签：语音识别, 语音转录, 马达加斯加语, 声学模型, 语言模型, 语音数据, 机器学习, 自然语言处理数据概述：该数据集包含马达加斯加语的语音音频及其对应的文本转录，旨在为语音识别（Speech-...

ZIP

Aditi1024文本转录数据集-donutkashvi

2025年5月29日 30 9 1

Aditi1024文本转录数据集-donutkashvi 数据来源：互联网公开数据标签：文本转录，语音识别，数据集，印度语，转录质量，自然语言处理，音频分析，机器学习数据概述：该数据集包含来自Aditi 1024项目收集的印度语音频及其相应的文本转录。主要特征如下：时间跨度：数据记录的时间范围未知，但包含了不同时间段的音频数据。...

ZIP

找到84个数据集

注册成功！