找到31个数据集

标签: 低资源语言

过滤结果
  • Lower_Fungom_Mundabli_Based_非洲语言词汇数字化完整数据

    2025年12月24日 30 20 2

    数据集概述 该数据集为Mundabli语言的225词表,Mundabli属Yemne-Kimbi语组,通行于喀麦隆西北部Menchum区Fungom分区Lower Fungom地区,语言有声调且名词前缀演变为修饰语一致标记,词表包含两位顾问提供的词汇及个体变异。 文件详解...
    packageimg
  • Gigatrue_Cleaned_英文摘要清理数据集

    2025年12月23日 30 30 28

    数据集概述 该数据集是对Harvard/gigaword数据集的清理版本,添加了生成的数值,并使用truecase工具进行了大小写标准化处理。数据集包含1个PDF文件,无训练/测试、数据/标签或原始/处理数据的拆分,为摘要任务研究提供基础数据。 文件详解 文件名称: Gigatrue Slovak abstractive summarisation...
    packageimg
  • 数据73种语言句子级释义语料库TaPaCo

    2025年12月22日 30 39 27

    数据集概述 该数据集为73种语言的句子级释义语料库TaPaCo,从Tatoeba数据库提取,经语言无关过滤和修剪步骤处理。含约190万句,每种语言20万至25万句,覆盖无其他释义数据集的语言,部分语言人工评估显示半数至四分之三释义正确。 文件详解 文件名称: tapaco_v1.0.zip:压缩包格式,包含73种语言的句子级释义语料库数据 文件名称:...
    packageimg
  • HIPE_2022共享任务命名实体数据集

    2025年12月22日 30 137 83

    数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
    packageimg
  • Lower_Fungom_Ngun_Based_喀麦隆Ngun语言词汇资源数据集

    2025年12月22日 30 38 22

    数据集概述 该数据集为Ngun语言的225词表,Ngun是蒙巴姆语的一种变体,属于也门-金比语族,使用于喀麦隆西北部Menchum省Fungom分区的Lower Fungom地区,语言具有声调及名词前缀特征,记录了两位顾问间的词汇变异。 文件详解 文件名称:...
    packageimg
  • KPAAMCAM_IDP_Lower_Fungom_Biya_Based_500名词词表完整数据

    2025年12月21日 30 41 31

    数据集概述 该数据集是一份包含500个名词的Biya Mungbam语言词表,Biya Mungbam是喀麦隆西北部Menchum区Lower Fungom地区使用的语言。词表基于两名男女发音人的数据,记录了声调、前缀、词根及名词短语等方面的个体差异。 文件详解 文件名称:KPAAMCAM-IDP_NTs_BIYA 500 NOUNS...
    packageimg
  • 印地语文本宣传数据集2023_Prop_HiT

    2025年12月21日 30 107 98

    数据集概述 本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。 文件详解 该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip:...
    packageimg
  • 达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

    2025年12月21日 30 17 7

    数据集概述 该数据集为三种低资源达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,包含六万余条YouTube评论,经人工标注用于情感分析和冒犯性语言识别,标注者间一致性较高,支持相关自然语言处理研究。 文件详解 文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 皮卡德语标注语料库

    2025年12月20日 30 184 102

    数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
    packageimg
  • 孟加拉语AI解决数学奥林匹克问题基准数据集

    2025年12月19日 30 24 19

    数据集概述 该数据集围绕孟加拉语AI解决数学奥林匹克问题基准展开,通过评估大语言模型(LLMs)配置、微调特定数据集及应用检索增强生成(RAG)等方法,提升模型在多语言环境下的推理精度,为数学推理研究提供支持。 文件详解 文件名称:13624ijnlc04.pdf 文件格式:PDF(.pdf)...
    packageimg
  • Gigatrue斯洛伐克语抽象摘要数据集

    2025年12月19日 30 89 10

    数据集概述 本数据集为合成Gigaword数据集的斯洛伐克语翻译版本,基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成,专注于抽象摘要任务,为斯洛伐克语文本摘要研究提供数据支持。 文件详解 文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf 文件格式: PDF...
    packageimg
  • KPAAMCAM_NTs_MUNKEN_Based_蒙肯语225词表词汇特征分析完整数据

    2025年12月18日 30 160 150

    数据集概述 本数据集是一份包含225个词汇的蒙肯语词表,蒙肯语是喀麦隆西北部门丘姆省丰贡分区下属丰贡地区使用的一种声调语言,属于耶姆内-金比语族。词表记录了两位咨询人提供的词汇,存在个体词汇差异。 文件详解 文件名称: KPAAMCAM_NTs_MUNKEN-3NGT-4NUN_225Wordlist_20221-02-25.pdf 文件格式: PDF...
    packageimg
  • Umsuka英语_祖鲁语平行语料库

    2025年12月8日 30 153 150

    数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
    packageimg
  • 帕皮阿门托语医疗环境关键词识别语音转文本数据集

    2025年12月16日 30 182 93

    数据集概述 本数据集为帕皮阿门托语医疗环境下的关键词识别语音转文本研究开发,包含七个类别(六个关键词和一个未知类别)的语音样本,经过滤后共16766个样本,每个样本为一秒钟录音生成的频谱图,用于推动帕皮阿门托语关键词识别研究。 文件详解 文件名称:papiamento_keyword_spotting_dataset.zip...
    packageimg
  • KPAAMCAM_NTs_MASHI_4BAA_5NCM_Based_贝姆布尔诺Lower_Fungom_Mashi词汇表完整数据

    2025年12月15日 30 132 23

    数据集概述 该数据集包含一份关于Mashi语言的225个词汇表文档。Mashi是一种属于Yemne-Kimbi语支的语言变体,主要分布在喀麦隆西北部Menchum区Fungom分区的Lower Fungom地区,为研究该语言的词汇特征提供基础数据。 文件详解 文件名称:...
    packageimg
  • Max_Planck_Archivo_DOBES_Nonuya_Based_2019版语言数据库词汇转录完整数据

    2025年12月14日 30 59 26

    数据集概述 该数据集为Nonuya语言(ISO 639 noj,属于Witoto语系)的数据库,收录了1973至2007年间与四位母语者的8693条词汇及表达录音的转录文本,经修订后采用AFI符号转录,每条数据含特定标识符,便于语言分析引用。 文件详解 文件名称: NONUYA2019.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 杜洪比语个人叙事转录解析与翻译文本数据集

    2025年12月14日 30 173 98

    数据集概述 该数据集包含杜洪比语个人叙事的音频文件及配套文本文件,覆盖死亡故事、村庄历史、狩猎、饮酒、驱邪等主题,提供转录、解析、标注及翻译内容,对应《杜洪比语语法》中的文本材料。 文件详解 音频文件(.wav格式):包含5个CHUK编号开头的音频文件,对应各叙事主题的原始录音...
    packageimg
  • 捷克波西米亚历史文献转录超级模型数据集2024

    2025年12月14日 30 95 18

    数据集概述 该数据集记录了2024年学生资助竞赛(SGS)项目中,学生团队基于Transkribus平台开发的捷克历史文献转录模型成果。包含训练集、验证集的错误率数据,多个学生开发的转录模型(如Finale 2.0、Agreg-8)及其字符错误率(CER),以及最终聚合模型CZECH...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日 30 112 12

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • 图皮语依存树库数据集

    2025年12月9日 30 131 72

    数据集概述 本数据集是图皮语依存树库(TuDeT),包含一个压缩文件,提供图皮语语言资源,用于自然语言处理(NLP)相关研究,为图皮语的句法分析提供数据支持。 文件详解 文件名称: tupian-language-resources/tudet-v0.4.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg