-
ACA_多语言核心论元标注数据库
2026年2月12日 30 162 40
数据集概述 本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。 文件详解 数据库描述文档...
-
Amazon_MT_Based手机多语言评论数据
2026年2月9日 30 64 17
数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
-
用于流行病学事件提取的多语言数据集_LREC_2020
2026年1月30日 30 198 167
数据集概述 本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据,包含多语言流行病学事件抽取语料,支持自然语言处理领域相关研究,以压缩包形式提供,仅含一个文件。 文件详解...
-
Wikidata_Based_多语言业务信息RDF转储数据
2026年1月29日 30 175 111
数据集概述 本数据集是通过wdumps工具生成的Wikidata业务相关RDF转储数据,包含韩语和英语两种语言的业务信息。数据集包含4个文件,涉及实体、标签、描述等结构化信息,可用于多语言业务数据的检索与分析。 文件详解 info.json 文件格式:JSON...
-
Invisible_East_Based_中世纪阿富汗及周边多语言文献JSON数据集
2026年1月18日 30 125 45
数据集概述 本数据集为Invisible East Digital Corpus的JSON格式版本,包含公元4/10世纪至7/13世纪中世纪阿富汗及周边地区的多语言文献,涵盖新波斯语、中古波斯语、阿拉伯语等语言,提供高清图像、转录及翻译内容,适用于计算分析与数字保存。 文件详解 文件名称:iedc_2025-08-07_18-07.json...
-
TwiSty_Based_多语言Twitter作者性别与人格分析语料库
2026年1月22日 30 167 75
数据集概述 本数据集为TwiSty多语言Twitter作者分析语料库,用于作者特征识别研究。包含六种语言共18,168位作者的人格(MBTI)和性别标注信息,以及作者的Twitter ID和其可用推文ID。推文已完成语言识别,分为“确认语言”和“其他语言”两类。 文件详解 文件名称:twisty.zip 文件格式:ZIP...
-
Reproduction_Package_多语言跨语言剽窃检测评估复现数据
2026年1月21日 30 44 5
数据集概述 本数据集为学士学位论文《Multi-Language and Cross-Language Plagiarism Detection》的复现包,包含论文评估所用全部数据,可确保论文结果的持续复现。内容涵盖修改版JPlag工具、评估用数据集及自动化运行脚本,支持多语言和跨语言剽窃检测的技术验证与结果复现。 文件详解...
-
Global_Stocktake_Based全球气候行动进展多语言机器学习分析数据
2026年1月15日 30 83 49
数据集概述 本数据集为《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》一文的配套数据,包含全球盘点气候行动相关的文本嵌入、文档项、主题关键词及段落、降维嵌入和元数据概述,支持气候变化领域的多语言文本分析研究。...
-
CLEF_Shared_Task_2024_议会辩论意识形态与权力识别测试数据集
2026年1月15日 30 127 4
数据集概述 本数据集为2024年CLEF议会辩论意识形态与权力识别共享任务的测试集,内容选自ParlaMint语料库(4.0版)的议会演讲文本。数据格式与训练集一致,但未包含标签信息,仅用于任务测试阶段的模型评估,包含1个压缩文件。 文件详解 文件名称:ideology-power-st-testset.zip 文件格式:ZIP...
-
Multi_CAST_Source_Northern_Kurdish多语言语音文本标注数据2311
2026年1月7日 30 200 41
数据集概述 本数据集为Multi-CAST多语言语音文本标注语料库的一部分,包含Northern Kurdish语言的语音文本标注数据。该语料库由班贝格大学发布,是多语言口语文本标注资源的重要组成,可用于相关语言研究与自然语言处理应用。 文件详解 文件名称:Multi-CAST/mcnkurd-v2311.zip 文件格式:ZIP...
-
European_Parliament_Based_欧洲议会全会演讲语料库列表及多语言搭配示例数据
2026年1月7日 30 99 24
数据集概述 本数据集包含2014年11月至2018年4月期间欧洲议会全会演讲语料库的演讲来源辩论列表、演讲者姓名,以及英语、法语、德语、匈牙利语中与“refugee(s)”“refugié(s)”“Flüchtling(e)”“menekült(ek)”搭配的动词示例,所有内容由论文作者识别整理。 文件详解 文件名称:List of debates...
-
Survey_Questions_Self_Assessment_瑞士50_人群数字技能多语言自评问卷数据
2025年12月31日 30 14 1
数据集概述 本数据集包含用于瑞士50岁以上人群数字技能自评的问卷,涵盖德语、法语和意大利语三种语言版本。数据旨在评估该群体的数字技能水平,总计包含三份文件。 文件详解 文件名称:Webseite & Word_ALLE Fragen_Französisch.xlsx 文件格式:XLSX...
-
HIPE_2022共享任务命名实体数据集
2025年12月22日 30 195 82
数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
-
已婚夫妇半结构化访谈问卷集_英语德语意大利语
2025年12月15日 30 122 65
数据集概述 本数据集包含用于引导已婚夫妇半结构化访谈的多语言问卷文件,支持英语、德语和意大利语三种语言版本,为跨文化婚姻关系相关研究提供标准化访谈工具。 文件详解 问卷文件(PDF格式): Couples_German_questionnaire.pdf:德语版本的已婚夫妇访谈问卷,PDF格式...
-
复活节主题多语言祝福数据集
2025年12月14日 30 172 130
数据集概述 该数据集围绕复活节主题,包含多语言祝福内容及相关文件,以图片和3D模型文件为主,为展示或研究复活节文化相关的视觉素材提供基础数据支持。 文件详解 图片文件(.jpeg格式,共5个):thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg,可能为复活节主题的预览图片...
-
多语言定性分析结果摘要数据集
2025年12月10日 30 4 2
数据集概述 本数据集展示了针对多语言样本的定性分析结果摘要,覆盖三十九种语言相关内容,以文档形式呈现结构化的分析总结。 文件详解 文件名称: Appendix_results_qual_analysis_summarized_40_languages.pdf 文件格式: PDF 内容说明:...
-
ARASAAC彩色象形图数据集_第7部分_共16部分
2025年12月10日 30 31 15
数据集概述 该数据集为ARASAAC彩色象形图系列的第7部分,包含一千个由Sergio Palao创作的黑白象形图。图片以PNG格式为主,覆盖生物学、统计学、医学、图像视觉、音频等领域的语义关键词,可作为视觉符号资源使用。 文件详解 核心文件内容: 包含一千个文件,其中九百九十九个为PNG格式的象形图文件,一个为无扩展名文件...
-
学术交流创新全球调查数据集2015_2016
2025年12月8日 30 208 90
数据集概述 该数据集包含2015-2016年全球学术交流创新调查的匿名原始数据与清理后数据,覆盖研究工具使用、开放获取态度、学术交流发展预期及受访者人口统计信息,为研究学术交流工具使用现状及研究工作流变化提供支持。 文件详解 数据文件: raw-data-innovations-in-scholarly-communication-...
-
多语言合成出院小结数据集_基于心力衰竭临床病例
2025年12月6日 30 39 27
数据集概述 该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结,覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译,旨在为临床自然语言处理系统提供训练与评估数据支持。 文件详解 根目录文件: MultiSynDS.zip: 压缩文件,包含数据集所有内容 子目录结构:...
-
SympTEMIST症状体征信息抽取标注数据集
2025年12月4日 30 129 55
数据集概述 该数据集是针对西班牙语文档中症状、体征和检查结果进行信息抽取的标注资源,包含任务训练测试集、SNOMED术语词表、九种语言的银标准数据及一万五千余例临床病例背景集,为医学文本挖掘研究提供标准化标注数据。 文件详解 文件名称: symptemist-complete_240208.zip 文件格式: ZIP压缩包 包含内容:...



