找到29个数据集

标签: 多语言文本

过滤结果
  • 古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集

    2025年12月18日 30 112 26

    数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...
    packageimg
  • IT支持工单分类数据集

    2025年12月16日 30 62 33

    数据集概述 该数据集包含2229条由巴西弗洛里亚诺波利斯地区IT支持公司提供的工单,经人工分类为7个类别,涵盖多语言非结构化文本。数据已脱敏处理,包含模型训练相关文件、数据文件及分析结果文件。 文件详解 数据文件(CSV格式): X_train.csv:训练集特征数据文件,存储工单文本数据 X_test.csv:测试集特征数据文件,存储工单文本数据...
    packageimg
  • 地中海博物馆双簧木管乐器Tenora数据集

    2025年12月16日 30 208 23

    数据集概述 该数据集包含地中海博物馆展出的双簧木管乐器Tenora的相关信息,涵盖其历史背景、制作信息及展示平台等内容,以多语言文本及数字模型文件呈现。 文件详解 三维模型文件:7d05cf766c42442d95271e07fc8fced7.glb(GLB格式),为Tenora乐器的三维模型文件...
    packageimg
  • iRead4Skills_数据集2_多语言标注语料库报告

    2025年12月15日 30 57 22

    数据集概述 本数据集是iRead4Skills项目的第二部分,提供了针对法语、葡萄牙语和西班牙语的复杂度分级标注语料库的详细报告,包含分类标注流程、数据构成、质量分析及标注样本等核心内容。 文件详解 文件名称: iRead4Skills_D3.7_Dataset_Annotated_Corpora_Report.pdf 文件格式: PDF (.pdf)...
    packageimg
  • 瑞士跨宗教庆典数据集

    2025年12月13日 30 32 29

    数据集概述 本数据集聚焦瑞士跨宗教庆典现象,通过宗教社会学分析与礼仪学评论,探究基督教徒如何发起并设计跨宗教庆典,包含2019-2020年瑞士德语区相关案例的实证数据,涉及庆典发起者、流程设计、多语言文本使用等内容。 文件详解 文件名称: ANHANG_1.PDF 文件格式: PDF 内容:...
    packageimg
  • 苏联1930年硬币数据集

    2025年12月11日 30 28 21

    数据集概述 本数据集记录了1930年发行的苏联5戈比硬币的核心属性,包括材质、尺寸、重量、发行量等信息,并配套硬币的图片及三维模型文件,为硬币收藏与研究提供基础数据支持。 文件详解 硬币属性信息:包含货币单位、面额、发行年份、材质、边缘特征、直径、厚度、重量、发行量等字段,原始数据以多语言文本形式呈现...
    packageimg
  • 贝特朗_德_维勒隆格墓志铭数据集

    2025年12月10日 30 201 119

    数据集概述 本数据集包含与贝特朗·德·维勒隆格(†1196)墓志铭相关的多语言文本及多媒体文件,记录其身份背景、生平及墓志铭内容,为研究中世纪人物纪念文化提供资料支持。 文件详解 该数据集包含6个文件,具体说明如下: -...
    packageimg
  • 开罗Darb_al_Ahmar地区Leyla阿拉伯语与法语录音描述及评论转录数据集2011_10_27

    2025年12月10日 30 150 113

    数据集概述 本数据集包含2011年10月27日埃及开罗Darb al-Ahmar地区参与者Leyla的录音描述及评论转录文件,涵盖阿拉伯语原文及法语译文,是“耳朵里的麦克风”双耳听觉实验的一部分,记录了参与者对自身录制城市声音路线的后验反馈。 文件详解 压缩文件: Archive Word docs Arabic & French...
    packageimg
  • 多语言新闻文章相似度数据集

    2025年12月9日 30 158 117

    数据集概述 该数据集是作者早期工作的扩展版本,包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度,为多语言新闻文本的相似度分析提供结构化标注数据。 文件详解 文档文件: Codebook for text similarity annotations -...
    packageimg
  • 跨语言转录系统数据集

    2025年12月9日 30 39 23

    数据集概述 该数据集包含跨语言转录系统相关内容,以压缩文件形式存储,为研究跨语言转录的标准化方法提供基础数据支持。 文件详解 文件名称:cldf-clts/clts-v2.3.0.zip 文件格式:ZIP(压缩文件格式) 内容说明:压缩文件可能包含跨语言转录系统的核心数据、编码规则或相关资源文件,具体字段与内容需解压后查看 适用场景...
    packageimg
  • 圣乔治礼拜堂_加泰罗尼亚政府宫数据集

    2025年12月4日 30 86 50

    数据集概述 该数据集包含圣乔治礼拜堂(位于加泰罗尼亚政府宫)的多语言描述文本及相关文件。礼拜堂建于1432-1434年,后经多次改建,数据提供了其历史背景与位置信息,支持建筑历史与文化遗产研究。 文件详解 文件名称: 17ac134428b24eda892557de6406a93f.glb 文件格式: GLB (.glb) 内容说明:...
    packageimg
  • 多语言民族数据集MELD

    2025年11月29日 30 208 122

    数据集概述 该数据集旨在解决计算语言学和自然语言处理(NLP)中少数民族语言严重代表性不足的问题。包含查克马语、加罗语、马尔马语的音译文本样本,以及标准孟加拉语和英语翻译,共3046条标注句子,适用于语言识别、机器翻译和情感分析等任务。 文件详解 数据文件: Language Dataset- Chakma, Garo, Marma, Standard...
    packageimg
  • 联合国大会演讲处理数据集UNGASpeechesProcessesDataset-smooge

    2025年5月30日 30 111 51

    联合国大会演讲处理数据集UNGASpeechesProcessesDataset-smooge 数据来源:互联网公开数据 标签:联合国,演讲,数据集,文本分析,自然语言处理,政治研究,国际关系,多语言文本 数据概述: 该数据集包含来自联合国大会的演讲记录,经过处理后适用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:...
    packageimg
  • 俄语与越南语文本语料库RussianandVietnameseTextCorpus-nguyntunsinh

    2025年5月29日 30 49 15

    俄语与越南语文本语料库RussianandVietnameseTextCorpus-nguyntunsinh 数据来源:互联网公开数据 标签:文本语料库, 俄语, 越南语, 文本分析, 自然语言处理, 语言学, 多语言, 文本挖掘 数据概述: 该数据集包含来自互联网的俄语和越南语文本语料,主要用于语言学研究、自然语言处理模型的训练与评估。主要特征如下:...
    packageimg
  • 多语言字幕数据集Opensubtitles6LanguagesforJigsaw2020-ratthachat

    2025年5月28日 30 82 0

    多语言字幕数据集Opensubtitles6LanguagesforJigsaw2020-ratthachat 数据来源:互联网公开数据 标签:自然语言处理,多语言文本,字幕数据,机器学习,文本分类,情感分析,数据集,人工智能 数据概述:...
    packageimg
  • 多语言数据集Multy-LangDatasets-embarkiomar

    2025年5月19日 30 114 109

    多语言数据集Multy-LangDatasets-embarkiomar 数据来源:互联网公开数据 标签:多语言,数据集,自然语言处理,机器翻译,文本分类,语言模型,人工智能,计算机科学 数据概述: 该数据集包含来自多个语言的数据,记录了不同语言之间的文本对齐和文本分类信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。...
    packageimg
  • 卡纳达语与英语多语言数据集Kannada-EnglishMulti-lingualDataset-python16

    2025年5月18日 30 40 10

    卡纳达语与英语多语言数据集Kannada-EnglishMulti-lingualDataset-python16 数据来源:互联网公开数据 标签:多语言,卡纳达语,英语,数据集,自然语言处理,机器翻译,语言学研究,文本分析 数据概述: 该数据集包含卡纳达语与英语的多语言文本数据,记录了两种语言之间的文本对齐信息。主要特征如下:...
    packageimg
  • 欧盟议会文本标注数据集EUParliamentTextAnnotationDataset-julianschelb

    2025年4月29日 30 30 4

    欧盟议会文本标注数据集EUParliamentTextAnnotationDataset-julianschelb 数据来源:互联网公开数据 标签:文本标注, 命名实体识别, 欧盟议会, 多语言文本, 政治文本分析, 自然语言处理, 机器学习, 文本分类 数据概述: 该数据集包含来自欧洲议会(European...
    packageimg
  • 多语言文本识别数据集MultilingualTextIdentification-iitm21f3001013

    2025年4月29日 30 50 12

    多语言文本识别数据集MultilingualTextIdentification-iitm21f3001013 数据来源:互联网公开数据 标签:文本识别,多语言,语言分类,自然语言处理,机器翻译,文本分析,语料库,印度语 数据概述: 该数据集包含来自多种印度语言的文本片段,旨在用于语言识别任务。主要特征如下:...
    packageimg
  • 维基多语言文本分类数据集-2018

    2025年4月26日 30 128 117

    维基多语言文本分类数据集-2018 数据来源:互联网公开数据 标签:文本分类,多语言,自然语言处理,机器学习,语言识别,维基百科,NLP,数据集 数据概述:...
    packageimg