找到33个数据集

标签: 多语言文本

过滤结果
  • 多语言多领域文本属性数据集

    2025年12月22日 30 172 41

    数据集概述 该数据集专为真实文档中的词级文本属性识别设计,包含1623张真实文档图像(涵盖法律通知、土地记录等多领域),覆盖8种语言,提供1117716个词级标注,标注类型包括粗体、斜体等文本属性及正常文本。 文件详解 测试集文件:MMTAD-TESTSET.zip,格式为ZIP,包含测试集数据 模型文件:TEXTAR-...
    packageimg
  • 哥廷根印度语言电子文本注册库瑜伽数据集

    2025年12月21日 30 139 42

    数据集概述 该数据集属于哥廷根印度语言电子文本注册库(GRETIL)的瑜伽主题部分,包含10个HTML格式的瑜伽相关电子文本文件,无目录结构,未划分训练/测试集、数据/标签或原始/处理数据。 文件详解 数据集包含10个HTML格式文件,具体如下:...
    packageimg
  • 科普特祈祷书数据集

    2025年12月19日 30 114 59

    数据集概述 本数据集包含1778年在埃及瓦迪纳特伦圣马卡里奥斯修道院抄写的科普特语与阿拉伯语双语祈祷书手稿相关文件,内容涉及圣母玛利亚等相关赞美诗,以图片和三维模型格式呈现。 文件详解 该数据集由6个文件组成,具体说明如下: - 图片文件(共5个,JPEG格式): - 文件名称:...
    packageimg
  • 菲律宾南部摩洛身份与武装冲突多语言Facebook评论数据集2015_2017_2019

    2025年12月19日 30 168 32

    数据集概述 本数据集包含菲律宾十家报纸Facebook官方页面2015、2017及2019年的12,478条社交媒体评论,围绕摩洛身份、马马萨帕诺冲突、马拉维围城及BARMM建立等主题,可用于研究文本与报纸来源、地区及政治行政等变量的关系。 文件详解 数据文件:...
    packageimg
  • 古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集

    2025年12月18日 30 174 109

    数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...
    packageimg
  • IT支持工单分类数据集

    2025年12月16日 30 106 74

    数据集概述 该数据集包含2229条由巴西弗洛里亚诺波利斯地区IT支持公司提供的工单,经人工分类为7个类别,涵盖多语言非结构化文本。数据已脱敏处理,包含模型训练相关文件、数据文件及分析结果文件。 文件详解 数据文件(CSV格式): X_train.csv:训练集特征数据文件,存储工单文本数据 X_test.csv:测试集特征数据文件,存储工单文本数据...
    packageimg
  • 地中海博物馆双簧木管乐器Tenora数据集

    2025年12月16日 30 37 18

    数据集概述 该数据集包含地中海博物馆展出的双簧木管乐器Tenora的相关信息,涵盖其历史背景、制作信息及展示平台等内容,以多语言文本及数字模型文件呈现。 文件详解 三维模型文件:7d05cf766c42442d95271e07fc8fced7.glb(GLB格式),为Tenora乐器的三维模型文件...
    packageimg
  • iRead4Skills_数据集2_多语言标注语料库报告

    2025年12月15日 30 59 18

    数据集概述 本数据集是iRead4Skills项目的第二部分,提供了针对法语、葡萄牙语和西班牙语的复杂度分级标注语料库的详细报告,包含分类标注流程、数据构成、质量分析及标注样本等核心内容。 文件详解 文件名称: iRead4Skills_D3.7_Dataset_Annotated_Corpora_Report.pdf 文件格式: PDF (.pdf)...
    packageimg
  • 瑞士跨宗教庆典数据集

    2025年12月13日 30 119 95

    数据集概述 本数据集聚焦瑞士跨宗教庆典现象,通过宗教社会学分析与礼仪学评论,探究基督教徒如何发起并设计跨宗教庆典,包含2019-2020年瑞士德语区相关案例的实证数据,涉及庆典发起者、流程设计、多语言文本使用等内容。 文件详解 文件名称: ANHANG_1.PDF 文件格式: PDF 内容:...
    packageimg
  • 苏联1930年硬币数据集

    2025年12月11日 30 146 89

    数据集概述 本数据集记录了1930年发行的苏联5戈比硬币的核心属性,包括材质、尺寸、重量、发行量等信息,并配套硬币的图片及三维模型文件,为硬币收藏与研究提供基础数据支持。 文件详解 硬币属性信息:包含货币单位、面额、发行年份、材质、边缘特征、直径、厚度、重量、发行量等字段,原始数据以多语言文本形式呈现...
    packageimg
  • 贝特朗_德_维勒隆格墓志铭数据集

    2025年12月10日 30 173 5

    数据集概述 本数据集包含与贝特朗·德·维勒隆格(†1196)墓志铭相关的多语言文本及多媒体文件,记录其身份背景、生平及墓志铭内容,为研究中世纪人物纪念文化提供资料支持。 文件详解 该数据集包含6个文件,具体说明如下: -...
    packageimg
  • 开罗Darb_al_Ahmar地区Leyla阿拉伯语与法语录音描述及评论转录数据集2011_10_27

    2025年12月10日 30 121 10

    数据集概述 本数据集包含2011年10月27日埃及开罗Darb al-Ahmar地区参与者Leyla的录音描述及评论转录文件,涵盖阿拉伯语原文及法语译文,是“耳朵里的麦克风”双耳听觉实验的一部分,记录了参与者对自身录制城市声音路线的后验反馈。 文件详解 压缩文件: Archive Word docs Arabic & French...
    packageimg
  • 多语言新闻文章相似度数据集

    2025年12月9日 30 62 24

    数据集概述 该数据集是作者早期工作的扩展版本,包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度,为多语言新闻文本的相似度分析提供结构化标注数据。 文件详解 文档文件: Codebook for text similarity annotations -...
    packageimg
  • 跨语言转录系统数据集

    2025年12月9日 30 197 1

    数据集概述 该数据集包含跨语言转录系统相关内容,以压缩文件形式存储,为研究跨语言转录的标准化方法提供基础数据支持。 文件详解 文件名称:cldf-clts/clts-v2.3.0.zip 文件格式:ZIP(压缩文件格式) 内容说明:压缩文件可能包含跨语言转录系统的核心数据、编码规则或相关资源文件,具体字段与内容需解压后查看 适用场景...
    packageimg
  • 圣乔治礼拜堂_加泰罗尼亚政府宫数据集

    2025年12月4日 30 20 19

    数据集概述 该数据集包含圣乔治礼拜堂(位于加泰罗尼亚政府宫)的多语言描述文本及相关文件。礼拜堂建于1432-1434年,后经多次改建,数据提供了其历史背景与位置信息,支持建筑历史与文化遗产研究。 文件详解 文件名称: 17ac134428b24eda892557de6406a93f.glb 文件格式: GLB (.glb) 内容说明:...
    packageimg
  • 多语言民族数据集MELD

    2025年11月29日 30 132 126

    数据集概述 该数据集旨在解决计算语言学和自然语言处理(NLP)中少数民族语言严重代表性不足的问题。包含查克马语、加罗语、马尔马语的音译文本样本,以及标准孟加拉语和英语翻译,共3046条标注句子,适用于语言识别、机器翻译和情感分析等任务。 文件详解 数据文件: Language Dataset- Chakma, Garo, Marma, Standard...
    packageimg
  • 联合国大会演讲处理数据集UNGASpeechesProcessesDataset-smooge

    2025年5月30日 30 5 0

    联合国大会演讲处理数据集UNGASpeechesProcessesDataset-smooge 数据来源:互联网公开数据 标签:联合国,演讲,数据集,文本分析,自然语言处理,政治研究,国际关系,多语言文本 数据概述: 该数据集包含来自联合国大会的演讲记录,经过处理后适用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:...
    packageimg
  • 俄语与越南语文本语料库RussianandVietnameseTextCorpus-nguyntunsinh

    2025年5月29日 30 50 0

    俄语与越南语文本语料库RussianandVietnameseTextCorpus-nguyntunsinh 数据来源:互联网公开数据 标签:文本语料库, 俄语, 越南语, 文本分析, 自然语言处理, 语言学, 多语言, 文本挖掘 数据概述: 该数据集包含来自互联网的俄语和越南语文本语料,主要用于语言学研究、自然语言处理模型的训练与评估。主要特征如下:...
    packageimg
  • 多语言字幕数据集Opensubtitles6LanguagesforJigsaw2020-ratthachat

    2025年5月28日 30 166 158

    多语言字幕数据集Opensubtitles6LanguagesforJigsaw2020-ratthachat 数据来源:互联网公开数据 标签:自然语言处理,多语言文本,字幕数据,机器学习,文本分类,情感分析,数据集,人工智能 数据概述:...
    packageimg
  • 多语言数据集Multy-LangDatasets-embarkiomar

    2025年5月19日 30 6 5

    多语言数据集Multy-LangDatasets-embarkiomar 数据来源:互联网公开数据 标签:多语言,数据集,自然语言处理,机器翻译,文本分类,语言模型,人工智能,计算机科学 数据概述: 该数据集包含来自多个语言的数据,记录了不同语言之间的文本对齐和文本分类信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。...
    packageimg