找到1,448个数据集

标签: 语料库

过滤结果
  • Multi_CAST_Source_Northern_Kurdish多语言语音文本标注数据2311

    2026年1月7日 30 165 149

    数据集概述 本数据集为Multi-CAST多语言语音文本标注语料库的一部分,包含Northern Kurdish语言的语音文本标注数据。该语料库由班贝格大学发布,是多语言口语文本标注资源的重要组成,可用于相关语言研究与自然语言处理应用。 文件详解 文件名称:Multi-CAST/mcnkurd-v2311.zip 文件格式:ZIP...
    packageimg
  • European_Parliament_Based_欧洲议会全会演讲语料库列表及多语言搭配示例数据

    2026年1月7日 30 167 61

    数据集概述 本数据集包含2014年11月至2018年4月期间欧洲议会全会演讲语料库的演讲来源辩论列表、演讲者姓名,以及英语、法语、德语、匈牙利语中与“refugee(s)”“refugié(s)”“Flüchtling(e)”“menekült(ek)”搭配的动词示例,所有内容由论文作者识别整理。 文件详解 文件名称:List of debates...
    packageimg
  • Multi_CAST_Source_Sanzhi_Dargwa多语言语音标注文本数据_2311版本

    2026年1月6日 30 168 128

    数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,包含Sanzhi Dargwa语言的标注语音文本数据,版本为2311。数据集由班贝格大学发布,是多语言语音语言学研究的结构化资源,仅包含一个压缩文件。 文件详解 文件名称:Multi-CAST/mcsanzhi-v2311.zip 文件格式:ZIP...
    packageimg
  • Stylometric_Based_约翰_斯图尔特_穆勒_妇女的屈从地位_作者归属分析数据_应用文件

    2026年1月5日 30 182 150

    数据集概述 本数据集为《妇女的屈从地位》作者归属问题的计算文体学分析项目相关文件。针对约翰·斯图尔特·穆勒称该书由其与哈丽特·泰勒·穆勒、海伦·泰勒合著的争议,通过支持向量机、K近邻、决策树三种分类器进行作者识别,数据集包含训练测试语料、应用代码及分析结果。 文件详解...
    packageimg
  • Schriftbelege_Hunsrik_xraywe_Lindenfelser_书面证据分析数据

    2026年1月4日 30 83 24

    数据集概述 本数据集为论文“Hunsrik xraywe”的分析语料,包含Facebook群组“Hunsrik Xprooch – Plat Taytx”中一周(2021年7月)的350条帖子及评论,共2250个词元,为Hunsrik语言的书面证据分析提供结构化数据支持。 文件详解...
    packageimg
  • PPORTAL_Annotated_Portuguese_Literary_Entities_NER语料库

    2025年12月31日 30 77 30

    数据集概述 本数据集为葡萄牙文学实体标注语料库,适配巴西和葡萄牙文学文本,包含PER、LOC、GPE、ORG、DATE五类实体标注。语料源自25部不同作者与风格的文学作品,含125,059个标记和5,266个标注实体,用于支持葡萄牙语NER模型开发及文学领域探索。 文件详解 文件名称:pportal-selective.json 文件格式:JSON...
    packageimg
  • Supplementary_material_5_Based_古东斯拉夫与现代斯拉夫语言距离测量实验结果数据

    2025年12月28日 30 209 182

    数据集概述 本数据集是基于语料库的语言距离测量实验结果,涵盖古东斯拉夫、现代东斯拉夫及现代标准斯拉夫语言变体。包含240个实验文件夹及1个汇总CSV文件,实验参数涉及主题反建模启发式、 Sørensen-Dice系数归一化、混合度量策略等,现代标准斯拉夫数据集还按不同规模占比(0.1、0.3、0.6、1)重复实验。 文件详解 汇总文件...
    packageimg
  • EN_MNE_EN_THA_Authentic_human_translations_corpora_真实人类翻译语料库数据

    2025年12月27日 30 140 74

    数据集概述 本数据集包含EN-MNE、EN-THA两个真实人类翻译语料库,数据按研究方法选取并处理了长度在100-150字符的句子对,用于翻译相关研究。数据集仅含一个文件,无目录结构及训练测试、数据标签等拆分。 文件详解 文件名称:data.xlsx 文件格式:XLSX 字段映射介绍:包含EN-MNE、EN-...
    packageimg
  • 俄语词义消歧语料库_RuSemCor

    2025年12月23日 30 87 34

    数据集概述 该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。 文件详解 文件名称: sense_annotations.tsv 文件格式: TSV (.tsv) 字段映射:...
    packageimg
  • 西班牙美洲学术期刊价值观教育数据集2001_2020

    2025年12月23日 30 176 32

    数据集概述 本数据集对应《西班牙美洲学术期刊价值观教育(2001-2020):数字工具应用研究》一文,包含200篇开放获取文本(PDF或TXT格式),通过REDIB©获取。数据集按出版时间和作者所属国家/机构分为不同语料库,另含参考文献及停用词列表,用于LDAvis主题建模分析。 文件详解 语料库压缩文件(共5个,.zip格式): Corpus A...
    packageimg
  • 贝多芬钢琴奏鸣曲注释乐谱语料库

    2025年12月24日 30 208 7

    数据集概述 本数据集为路德维希·凡·贝多芬钢琴奏鸣曲的注释乐谱语料库,以压缩包形式存储,包含经标注的乐谱资源,为音乐分析与研究提供基础数据支持。 文件详解 文件名称: DCMLab/beethoven_piano_sonatas-v2.5.zip 文件格式: ZIP(压缩包) 内容说明:...
    packageimg
  • J_S_巴赫英法组曲带注释乐谱语料库

    2025年12月24日 30 140 88

    数据集概述 该数据集为J.S.巴赫《英国组曲》与《法国组曲》的带注释乐谱语料库,以压缩包形式存储,包含相关乐谱的标注数据,为古典音乐乐谱分析提供基础资料。 文件详解 文件名称: DCMLab/bach_en_fr_suites-v2.2.zip 文件格式: ZIP (.zip) 内容说明:...
    packageimg
  • Archi_Text_Corpus_Based_阿奇语2006_2007年语料库完整数据

    2025年12月23日 30 16 14

    数据集概述 本数据集为阿奇语语料库,包含2006-2007年在阿奇村收集的50余篇多体裁文本,涵盖故事、对话、传说、歌曲等,多数配有音视频记录。内容包含重新录制的1977年已发表文本及新采集文本,本版本文本均源自1977年出版的《阿奇语:文本与词典》。 文件详解 文档文件(共66个,包含两种格式):...
    packageimg
  • 印度语言电子文本哥廷根登记册_普拉蒂萨基亚集

    2025年12月23日 30 143 74

    数据集概述 本数据集是印度语言电子文本哥廷根登记册(GRETIL)中的普拉蒂萨基亚(PRATISAKHYA)相关文本集合,包含两篇印度语言电子文本,均以网页格式存储,为研究印度语言文本提供基础资料。 文件详解 文件名称: niruktau.htm:格式为.htm,具体内容未提供预览,推测为印度语言相关电子文本。 文件名称:...
    packageimg
  • 西班牙临床过敏笔记语料库

    2025年12月23日 30 112 83

    数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
    packageimg
  • 西班牙菲律宾女性家政移民工社会语言学情况数据集

    2025年12月23日 30 209 149

    数据集概述 本数据集包含西班牙菲律宾女性家政移民工社会语言学情况相关的转录文本,源自"西班牙在亚洲与亚洲在西班牙"资格论文的语料库,聚焦移民语言学视角下该群体的社会语言学特征,为相关研究提供基础数据支持。 文件详解 文件名称:Focus group 1.pdf 文件格式:PDF 内容:第一组焦点小组访谈的转录文本 文件名称:Focus Group...
    packageimg
  • 葡萄牙语文本中的性别偏见数据集

    2025年12月22日 30 112 29

    数据集概述 该数据集包含用于研究葡萄牙语文本中性别偏见的相关数据,包括精选的葡萄牙语文学语料库、构建句子模板的词表以及已生成的句子模板文件,为基于掩码语言模型的性别偏见分析提供支持。 文件详解 语料库文件: corpus.zip:压缩文件,包含1804-1998年巴西和欧洲葡萄牙语的592部散文作品,共120万句、1760万词的精选文学语料库...
    packageimg
  • 媒体偏见标注专家数据集

    2025年12月22日 30 96 38

    数据集概述 本数据集聚焦媒体偏见检测,通过对比众包标注与专家标注的差异,验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南,旨在为偏见检测模型提供更可靠的基准数据,解决现有偏见语料库标注一致性低的问题。 文件详解 专家标注文件: annotations_expert1.xlsx:...
    packageimg
  • 爱德华_格里格抒情钢琴曲标注乐谱语料库

    2025年12月22日 30 38 18

    数据集概述 本数据集是爱德华·格里格抒情钢琴曲的标注乐谱语料库,包含经过标注的乐谱资源,以压缩文件形式存储,为音乐分析、乐谱研究等提供数据支持。 文件详解 压缩文件: DCMLab/grieg_lyric_pieces-v2.3.zip: 压缩文件格式,包含爱德华·格里格抒情钢琴曲的标注乐谱语料库相关内容,具体字段或内容需解压后查看 适用场景...
    packageimg
  • 荷兰文化期刊_De_Gids_主题建模数据集

    2025年12月22日 30 202 106

    数据集概述 本数据集是论文《Topic Modelling “De Gids”:An Explorative Study into the Use of Topic Modelling on a Cultural Periodical》的配套数据,包含论文原文及实验相关文件,用于支持对荷兰文化期刊《De Gids》的主题建模研究。 文件详解...
    packageimg