-
is24_Interspeech2024_欧洲议会录音多语言测试集
2026年1月27日 30 72 63
数据集概述 本数据集是从欧洲议会会议录音中提取的多语言测试集,用于语言识别和语音识别任务。包含15个多语言音频文件,总时长约2小时56分34秒,覆盖19种语言,经人工核对语言标签时间戳并补充官方文本转录,可支持多语言语音技术的模型测试与评估。 文件详解 文件名称:tst_is24.zip 文件格式:ZIP...
-
TwiSty_Based_多语言Twitter作者性别与人格分析语料库
2026年1月22日 30 97 24
数据集概述 本数据集为TwiSty多语言Twitter作者分析语料库,用于作者特征识别研究。包含六种语言共18,168位作者的人格(MBTI)和性别标注信息,以及作者的Twitter ID和其可用推文ID。推文已完成语言识别,分为“确认语言”和“其他语言”两类。 文件详解 文件名称:twisty.zip 文件格式:ZIP...
-
CLDF_Dogon_Comparative_Wordlist_语言比较研究数据集2016
2026年1月13日 30 186 140
数据集概述 本数据集是基于Heath等人2016年的《Dogon Comparative Wordlist》衍生的CLDF格式数据集,由Moran、Forkel和Heath编辑,记录Dogon语言的比较词表信息,为语言学研究提供结构化数据支持。 文件详解 文件名称:heathdogon-v0.3.zip 文件格式:ZIP...
-
WiLI_2018_Wikipedia_Based_多语言文本识别基准数据集
2025年12月12日 30 186 34
数据集概述 该数据集是Wikipedia语言识别基准数据集,包含235种语言的235000个段落,数据分布均衡,并提供训练集和测试集的划分。 文件详解 文件名称: wili-2018.zip 文件格式: ZIP压缩包(.zip) 内容说明: 压缩包内包含数据集的完整内容,具体字段及结构需解压后查看原始文件 适用场景 自然语言处理研究:...
-
文章提及语言及其ISO代码列表_延续循环
2025年12月4日 30 179 29
数据集概述 本数据集为单一PDF文件,内容是文章《延续循环》中提及的语言及其对应的ISO代码列表,为语言相关研究或应用提供标准化编码参考。 文件详解 文件名称:The_languages_mentioned_in_the_article_Continuative Cycle_with_thei_ ISO_codes.pdf 文件格式:PDF...
-
WoLLaI_Mal_Eng_单词级语言识别数据集
2025年11月29日 30 20 2
数据集概述 本数据集是针对马拉雅拉姆语-英语混合文本的单词级语言识别标注数据,包含一万二千四百零二个句子,标注类别分为马拉雅拉姆语(Mal)、英语(Eng)、混合词(Mix)和其他(Othr)四类,支持自然语言处理领域的语言识别任务研究。 文件详解 该数据集包含三个格式的文件,具体说明如下: - 文件名称:...



