-
COVID_19新闻发布会语料库
2025年12月16日 30 202 33
数据集概述 该数据集是一个机器可读的文本语料库,收集了全球各国政府及世界卫生组织在新冠疫情期间的每日新闻发布会内容,涵盖疫情状态更新、政策决策等信息,目前包含英国、苏格兰、威尔士、北爱尔兰及世界卫生组织的多场发布会记录。 文件详解 文件名称: Covid19_Press_Briefings_Corpus.zip 文件格式: ZIP(压缩包格式)...
-
古典与文学汉语学习者可靠词汇表原始频率数据集
2025年12月16日 30 117 42
数据集概述 该数据集包含古典与文学汉语学习者词汇表的原始频率计数,基于三个语料库(Micheal Loewe早期中文文本、正史、六部小说)构建,为汉语词汇研究提供基础数据支持。 文件详解 压缩包文件:...
-
拉赫玛尼诺夫_科雷利主题变奏曲_Op_42带注释乐谱语料库
2025年12月16日 30 165 94
数据集概述 该数据集为谢尔盖·拉赫玛尼诺夫《科雷利主题变奏曲》Op.42的带注释乐谱语料库,包含一套打包的乐谱文件,为音乐研究与分析提供支持。 文件详解 文件名称: DCMLab/rachmaninoff_piano-v2.4.zip 文件格式: ZIP压缩包 (.zip) 内容说明:...
-
斯洛文尼亚语含次级未完成体语素调整的Lec型名物化数据集
2025年12月16日 30 184 134
数据集概述 该数据集基于Arsenijević等人2024年的数据集衍生,核心记录斯洛文尼亚语中Lec型名物化(原数据集标注为lc-)的次级未完成体语素调整现象,包含调整后语素的名物化形式及其在国家语料库Gigafida 2.0中的出现频率。 文件详解 说明文档:Instructions for_Lec-nominalizations with an...
-
莫里斯_拉威尔钢琴作品注释乐谱语料库
2025年12月16日 30 100 29
数据集概述 该数据集为莫里斯·拉威尔钢琴作品的注释乐谱语料库,包含一个压缩文件,未提供详细描述,文件结构简单,无训练测试、数据标签或原始处理数据的划分。 文件详解 压缩文件: DCMLab/ravel_piano-v2.6.zip: 压缩文件格式,包含莫里斯·拉威尔钢琴作品的注释乐谱语料库,具体字段及内容需解压后查看,无预览信息。 适用场景...
-
曼加拉姆佛教梵语词典数据集
2025年12月15日 30 181 70
数据集概述 该数据集包含曼加拉姆研究中心开发的两个佛教梵语在线词典的词汇数据,分别是人工编纂的视觉词典与词库、全自动语料库词典,均基于曼加拉姆佛教梵语文本语料库构建,为佛教梵语词汇研究提供支持。 文件详解 核心数据文件:...
-
古希腊语到英语翻译对齐标注指南与黄金标准数据集
2025年12月15日 30 65 51
数据集概述 该数据集包含古希腊语文本与英语翻译对齐的标注指南及黄金标准,标注覆盖荷马史诗、雅典散文、柏拉图对话等文本,经测试标注者间一致性达百分之八十及以上,可用于翻译对齐的执行、评估及自动化模型训练。 文件详解 文件名称: eng.txt 文件格式: TXT (.txt) 内容说明:...
-
开放教育资源馆员职位描述语料库
2025年12月15日 30 22 15
数据集概述 本数据集为一份开放教育资源(OER)馆员职位描述的语料库保存副本,对应IJOER期刊文章的配套数据,聚焦学术图书馆中新兴的开放教育馆员角色相关职位描述内容。 文件详解 文件名称: LarsonAmandaLibraryPositionDescriptions2017to2019corpus.pdf 文件格式: PDF (.pdf)...
-
语法正字法之旅_元书写理由语料库
2025年12月15日 0 126 93
数据集概述 该数据集为包含四十次语言治疗会话的语料库,涉及四名儿童与三名语言治疗师,每人十次会话。核心围绕语言治疗师与儿童的互动分析,聚焦成人支持方式、儿童言语表达及使用数字短语构建应用时的元书写推理过程,用于研究元语言教学序列、专家成人支持特征及随会话的演变。 文件详解 文件名称:...
-
乌德穆尔特语空间格变化研究数据集
2025年12月15日 30 122 60
数据集概述 本数据集包含乌德穆尔特语空间格(源格:离格、出格;目标格:入格、终格)变化的人工标注数据及配套R分析代码,用于研究地标属性、动词形式等变量对格选择的影响,支持相关语言现象的定量分析。 文件详解 该数据集包含数据文件、R代码文件及文档,具体如下: - 数据文件(CSV格式):共6个,用于分析空间格选择的影响因素 -...
-
阿尔坎杰罗_科雷利三重奏鸣曲标注乐谱语料库
2025年12月14日 30 146 6
数据集概述 本数据集为阿尔坎杰罗·科雷利三重奏鸣曲的标注乐谱语料库,包含第二乐章待审内容,记录了第12、14小节的问题及提交详情,以压缩包形式存储核心乐谱文件。 文件详解 文件名称:DCMLab/corelli-v2.9.zip 文件格式:ZIP(压缩包)...
-
ERRATAS历史书信印刷版编辑原则与实践数据库2023
2025年12月14日 30 33 14
数据集概述 本数据集是ERRATAS项目的核心成果,基于早期英语书信语料库(CEEC-400)的来源文献,系统性调查历史书信印刷版的编辑原则、实践及相关人员工作情况,为研究历史文献编辑规范提供结构化数据支持。 文件详解 数据文件 (.xlsx 格式): ERRATAS-database 2023.xlsx:...
-
社会科学方法教育德语开放教育资源概述2024
2025年12月6日 60 8 6
数据集概述 本数据集是关于社会科学研究方法的德语开放教育资源(OER)及类OER的语料库,包含识别出的资源及分类编码,数据更新至2024年7月,供二次使用、扩展和修订。 文件详解 文件名称: GERMAN LANGUAGE OER FOR SOCIAL SCIENCE METHODS EDUCATION 2024.pdf 文件格式: PDF...
-
克木语逐行对照文本集220125
2025年12月14日 30 128 25
数据集概述 本数据集包含八部克木语(Kmhmu')文本,采用逐行对照格式呈现,包含国际音标(IPA)转写、英文注释及自由翻译,为克木语语言研究提供结构化语料。 文件详解 该数据集由八个PDF格式的文档文件组成,具体如下: - 文件名称及格式: - Tan Srma' - Interlinear 200125.pdf:PDF格式,克木语文本逐行对照文件...
-
Ignaz_Pleyel弦乐四重奏乐谱标注语料库
2025年12月13日 30 135 77
数据集概述 该数据集为Ignaz Pleyel的弦乐四重奏乐谱标注语料库,包含经标注的乐谱数据,以压缩包形式存储,为研究古典音乐乐谱结构、作曲家风格特征提供数据支持。 文件详解 文件名称:pleyel_quartets-v2.5.zip 文件格式:ZIP压缩包(.zip) 内容说明:压缩包内包含Ignaz...
-
DCMLab_Francis_Poulenc_Based_无穷动乐谱标注语料完整数据
2025年12月13日 30 185 67
数据集概述 该数据集为Francis Poulenc的《无穷动》(Mouvements Perpetuels)标注乐谱语料库,包含一个压缩文件,未提供进一步描述。 文件详解 文件名称: DCMLab/poulenc_mouvements_perpetuels-v2.4.zip 文件格式: ZIP (.zip) 内容说明:...
-
加泰罗尼亚政府网页爬取语料库2020
2025年12月13日 30 25 16
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
-
Bouziri_and_Breeze_Based_语料库元话语信度分析方法完整数据
2025年12月13日 30 163 99
数据集概述 本数据集为系统性综述研究《语料库元话语研究信度的系统性综述》的补充材料,包含研究列表、编码方案、编码流程及ICRMs完整报告等4份PDF文档,为该综述研究提供方法与过程的详细支撑。 文件详解 文件名称:Bouziri and Breeze Appendix 1 List of Studies.pdf 文件格式:PDF...
-
BIOMAT_CellNER语料库训练与验证集
2025年12月4日 60 3 0
数据集概述 该数据集包含BIOMAT-CellNER语料库的训练集(七百五十篇文档)和验证集(一百篇文档),聚焦生物材料领域科学文献中细胞实体(细胞类型、细胞系)的命名实体识别标注,支持相关NER模型开发。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称: BIOMAT-CellNER_Train_Set.zip - 文件格式:...
-
BIOMAT_MONER语料库训练与验证集
2025年12月13日 30 9 3
数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...



