-
科普特祈祷书数据集
2025年12月19日 30 56 37
数据集概述 本数据集包含1778年在埃及瓦迪纳特伦圣马卡里奥斯修道院抄写的科普特语与阿拉伯语双语祈祷书手稿相关文件,内容涉及圣母玛利亚等相关赞美诗,以图片和三维模型格式呈现。 文件详解 该数据集由6个文件组成,具体说明如下: - 图片文件(共5个,JPEG格式): - 文件名称:...
-
菲律宾南部摩洛身份与武装冲突多语言Facebook评论数据集2015_2017_2019
2025年12月19日 30 107 41
数据集概述 本数据集包含菲律宾十家报纸Facebook官方页面2015、2017及2019年的12,478条社交媒体评论,围绕摩洛身份、马马萨帕诺冲突、马拉维围城及BARMM建立等主题,可用于研究文本与报纸来源、地区及政治行政等变量的关系。 文件详解 数据文件:...
-
古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集
2025年12月18日 30 50 3
数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...
-
IT支持工单分类数据集
2025年12月16日 30 76 48
数据集概述 该数据集包含2229条由巴西弗洛里亚诺波利斯地区IT支持公司提供的工单,经人工分类为7个类别,涵盖多语言非结构化文本。数据已脱敏处理,包含模型训练相关文件、数据文件及分析结果文件。 文件详解 数据文件(CSV格式): X_train.csv:训练集特征数据文件,存储工单文本数据 X_test.csv:测试集特征数据文件,存储工单文本数据...
-
地中海博物馆双簧木管乐器Tenora数据集
2025年12月16日 30 3 2
数据集概述 该数据集包含地中海博物馆展出的双簧木管乐器Tenora的相关信息,涵盖其历史背景、制作信息及展示平台等内容,以多语言文本及数字模型文件呈现。 文件详解 三维模型文件:7d05cf766c42442d95271e07fc8fced7.glb(GLB格式),为Tenora乐器的三维模型文件...
-
iRead4Skills_数据集2_多语言标注语料库报告
2025年12月15日 30 118 58
数据集概述 本数据集是iRead4Skills项目的第二部分,提供了针对法语、葡萄牙语和西班牙语的复杂度分级标注语料库的详细报告,包含分类标注流程、数据构成、质量分析及标注样本等核心内容。 文件详解 文件名称: iRead4Skills_D3.7_Dataset_Annotated_Corpora_Report.pdf 文件格式: PDF (.pdf)...
-
瑞士跨宗教庆典数据集
2025年12月13日 30 193 127
数据集概述 本数据集聚焦瑞士跨宗教庆典现象,通过宗教社会学分析与礼仪学评论,探究基督教徒如何发起并设计跨宗教庆典,包含2019-2020年瑞士德语区相关案例的实证数据,涉及庆典发起者、流程设计、多语言文本使用等内容。 文件详解 文件名称: ANHANG_1.PDF 文件格式: PDF 内容:...
-
苏联1930年硬币数据集
2025年12月11日 30 132 5
数据集概述 本数据集记录了1930年发行的苏联5戈比硬币的核心属性,包括材质、尺寸、重量、发行量等信息,并配套硬币的图片及三维模型文件,为硬币收藏与研究提供基础数据支持。 文件详解 硬币属性信息:包含货币单位、面额、发行年份、材质、边缘特征、直径、厚度、重量、发行量等字段,原始数据以多语言文本形式呈现...
-
贝特朗_德_维勒隆格墓志铭数据集
2025年12月10日 30 180 100
数据集概述 本数据集包含与贝特朗·德·维勒隆格(†1196)墓志铭相关的多语言文本及多媒体文件,记录其身份背景、生平及墓志铭内容,为研究中世纪人物纪念文化提供资料支持。 文件详解 该数据集包含6个文件,具体说明如下: -...
-
开罗Darb_al_Ahmar地区Leyla阿拉伯语与法语录音描述及评论转录数据集2011_10_27
2025年12月10日 30 106 50
数据集概述 本数据集包含2011年10月27日埃及开罗Darb al-Ahmar地区参与者Leyla的录音描述及评论转录文件,涵盖阿拉伯语原文及法语译文,是“耳朵里的麦克风”双耳听觉实验的一部分,记录了参与者对自身录制城市声音路线的后验反馈。 文件详解 压缩文件: Archive Word docs Arabic & French...
-
多语言新闻文章相似度数据集
2025年12月9日 30 169 22
数据集概述 该数据集是作者早期工作的扩展版本,包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度,为多语言新闻文本的相似度分析提供结构化标注数据。 文件详解 文档文件: Codebook for text similarity annotations -...
-
跨语言转录系统数据集
2025年12月9日 30 30 2
数据集概述 该数据集包含跨语言转录系统相关内容,以压缩文件形式存储,为研究跨语言转录的标准化方法提供基础数据支持。 文件详解 文件名称:cldf-clts/clts-v2.3.0.zip 文件格式:ZIP(压缩文件格式) 内容说明:压缩文件可能包含跨语言转录系统的核心数据、编码规则或相关资源文件,具体字段与内容需解压后查看 适用场景...
-
圣乔治礼拜堂_加泰罗尼亚政府宫数据集
2025年12月4日 30 42 40
数据集概述 该数据集包含圣乔治礼拜堂(位于加泰罗尼亚政府宫)的多语言描述文本及相关文件。礼拜堂建于1432-1434年,后经多次改建,数据提供了其历史背景与位置信息,支持建筑历史与文化遗产研究。 文件详解 文件名称: 17ac134428b24eda892557de6406a93f.glb 文件格式: GLB (.glb) 内容说明:...
-
多语言民族数据集MELD
2025年11月29日 30 25 7
数据集概述 该数据集旨在解决计算语言学和自然语言处理(NLP)中少数民族语言严重代表性不足的问题。包含查克马语、加罗语、马尔马语的音译文本样本,以及标准孟加拉语和英语翻译,共3046条标注句子,适用于语言识别、机器翻译和情感分析等任务。 文件详解 数据文件: Language Dataset- Chakma, Garo, Marma, Standard...



