-
德国政治演讲语料库
2025年12月22日 30 133 22
数据集概述 该数据集是一个文本档案库,聚焦于1990年以来德国高层官员的政治演讲,按政治相关性筛选。数据包含带有元数据的XML格式文本文件,是自然语言处理和语料库语言学研究的资源。 文件详解 文件名称: German-political-speeches-2019-release.zip 文件格式: ZIP压缩包 内容说明:...
-
业务流程描述中歧义检测的标注数据集
2025年12月21日 30 140 105
数据集概述 本数据集包含七十一条业务流程描述的歧义标注数据,采用Franceschetti等人提出的业务流程管理(BPM)歧义分类体系进行标注,涵盖声明式和命令式两种流程描述类型,为研究业务流程文本中的歧义识别提供标注资源。 文件详解 综合标注数据文件: Ambiguity Annotations - All...
-
达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020
2025年12月21日 30 100 41
数据集概述 该数据集为三种低资源达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,包含六万余条YouTube评论,经人工标注用于情感分析和冒犯性语言识别,标注者间一致性较高,支持相关自然语言处理研究。 文件详解 文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包 内容说明:...
-
ChatGPT_Outputs_Based_自然语言处理应用研究完整数据
2025年12月21日 30 131 92
数据集概述 本数据集包含与ChatGPT输出相关的内容,以单一PDF文档形式呈现,为了解ChatGPT生成内容的特点或应用场景提供基础资料。 文件详解 文件名称:Supplementary materials.pdf 文件格式:PDF(.pdf) 内容说明:该文件为文档类文件,具体内容未提供详细字段或内容描述,需通过打开文件查看补充材料的具体信息。...
-
NERdME_Based_命名实体识别任务完整数据集
2025年12月20日 0 146 73
数据集概述 本数据集包含NERdME相关的压缩文件和标注指南文档,为命名实体识别任务提供数据及操作参考,支持相关算法训练或研究分析。 文件详解 文件名称: NERdME.zip 文件格式: ZIP压缩包 内容说明: 包含NERdME相关的原始或处理后的数据文件,具体内容需解压后查看 文件名称:...
-
ChatGPT生成结构化摘要与作者原始摘要对比数据集
2025年12月19日 30 32 28
数据集概述 该数据集围绕信息科学领域研究论文,对比ChatGPT生成的结构化摘要与作者原始摘要。研究选取2022-2023年发表于《Zagadnienia Informacji Naukowej – Studia Informacyjne》期刊的10篇论文(含5篇波兰语、5篇英语),以单篇PDF文档呈现对比内容。 文件详解...
-
LLM生成代码片段可读性对比数据集
2025年12月19日 30 54 49
数据集概述 本数据集聚焦LLM生成代码片段的可读性研究,包含ChatGPT、DeepSeek、Gemini三款模型生成代码的对比分析相关文件,以压缩包形式提供,为探究不同大语言模型代码生成质量差异提供数据支持。 文件详解 文件名称:Replication Package.zip 文件格式:ZIP(压缩包格式)...
-
NKK_GitHub_Covid_19_美国孟加拉国新闻报道完整数据
2025年12月15日 30 39 12
数据集概述 本数据集包含美国和孟加拉国的COVID-19相关在线新闻报道,其中美国数据集含一千篇来自《华盛顿邮报》《星论坛报》的报道,孟加拉国数据集含五十篇来自《每日星报》《普罗托姆·阿洛报》的报道,为COVID-19新闻的NLP研究提供数据支持。 文件详解 文件名称: USA -...
-
俄罗斯姓名性别识别数据库
2025年12月14日 30 42 28
数据集概述 该数据集包含俄罗斯联邦范围内的姓名、姓氏及父称信息,用于训练基于全名的性别识别算法。数据以MongoDB数据库格式准备,包含BSON和JSONL格式的压缩文件,为性别识别和全名解析软件提供数据支持。 文件详解 文件名称:russiannames_db_bson.zip 文件格式:ZIP压缩包...
-
TecKnoGraph_C4ISTAR专利知识图谱数据集
2025年12月14日 30 66 21
数据集概述 该数据集包含通过TecKnoGraph生成的C4ISTAR领域专利知识图谱样本,由知识图谱三元组数据、专利文本文件及相关附录文档组成,为研究C4ISTAR领域专利技术关联提供结构化与原始数据支持。 文件详解 知识图谱数据文件: TecKnoGraph-C4ISTAR-...
-
LLM逆向工程序列图泛化能力复现数据包
2025年12月13日 0 102 83
数据集概述 本数据集是论文《On the Generalization Capabilities of LLMs for Reverse Engineering Sequence Diagrams》的复现数据包,包含实验所需的源代码、模型生成的序列图数据等,支持复现论文中的研究结果。 文件详解 RE-LLMs-...
-
提格利尼亚语语言建模数据集TLMD_v1_0_0
2025年12月13日 30 197 103
数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
-
加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集
2025年12月13日 30 123 73
数据集概述 本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。 文件详解 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...
-
从语音到容器_文本转Docker数据集
2025年12月13日 30 148 140
数据集概述 该数据集包含三千一百九十二个不同的Docker命令样本,每个样本配有对应的自然语言描述(称为"prompt")。数据分为英语版本(含训练、验证、测试集)和西班牙语版本(仅测试集),以压缩包形式提供,为文本转Docker命令的研究提供数据支持。 文件详解 文件名称: data.zip 文件格式: ZIP压缩包 内容说明:...
-
Anirudh_Prabhu博士论文文本转规则转换完整结果数据集
2025年12月13日 30 144 72
数据集概述 本数据集为Anirudh Prabhu博士论文的组成部分,包含其论文第五章所述“文本转规则转换工作流”的运行结果。数据集预览及描述可参考论文附录E,为相关研究提供文本规则转换的实证数据支持。 文件详解 该数据集包含2个文件,具体说明如下: - 文件名称: MBR_SitCalcRules.pdf - 文件格式: PDF (.pdf) -...
-
生成式预训练Transformer支持可持续性影响识别数据集
2025年12月12日 30 42 27
数据集概述 本数据集围绕生成式预训练Transformer(如ChatGPT)在可持续性影响识别中的应用展开,包含4个Excel格式数据文件与2个PDF格式文档文件,为相关研究提供数据支持与方法参考。 文件详解 数据文件(.xlsx格式,共4个): ChatGPT-R1.xlsx:可能为第一轮ChatGPT相关实验或分析数据...
-
多语言历史报纸命名实体识别实体链接与立场检测数据集2021
2025年12月11日 30 72 39
数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...
-
异构数据结构化与集成的大语言模型数据集
2025年12月11日 30 158 144
数据集概述 本数据集为论文《Large Language Models for Structuring and Integration of Heterogeneous Data》的配套数据,包含匿名示例文档、开源大语言模型对比结果、案例研究材料及案例研究结果,支持相关研究的复现与验证。 文件详解 文件名称: Dataset...
-
西班牙临床病例语料库词性标注数据集
2025年12月10日 30 87 58
数据集概述 该数据集是西班牙临床病例语料库(SPACCC)的首个词性标注版本,由基于FreeLing3.1的SPACCC_POS-TAGGER工具完成标注,为临床文本的词性分析提供结构化数据支持。 文件详解 文件名称: SPACCC_POS.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
Reddit_Based_实体链接数据集_多标注文本语义分析完整数据
2025年12月10日 30 197 154
数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...



