数据集 - 海数据

维基数量与维基测量数据集

2025年12月11日

数据集概述该数据集包含Wiki-Quantities和Wiki-Measurements两个子数据集，分别用于支持数量识别与测量上下文提取任务。数据从维基百科文章和维基数据事实启发式生成，部分样本添加S2ORC数据集引用以增强模型鲁棒性，为测量提取系统的开发与评估提供支持。文件详解核心压缩文件: Wiki-Quantities.zip:...

ZIP

PyTextQltEval_自动化软件文档质量评估库数据集

2025年12月9日

数据集概述本数据集包含一个自动化软件文档质量评估库相关的压缩文件，聚焦于软件文档质量评估领域，为研究或应用文档质量自动化评估工具提供数据支持。文件详解文件名称: doc_quality.zip 文件格式: ZIP压缩包（.zip）内容说明: 压缩包内包含与PyTextQltEval自动化软件文档质量评估库相关的文件，具体内容需解压后查看...

ZIP

学位论文致谢支持与情感人工标注数据集

2025年12月8日

数据集概述该数据集是学位论文致谢部分的人工标注数据，围绕致谢内容中的支持关系与情感倾向展开标注。包含支持类型标注、情感极性标注及相关元数据，辅以编码手册说明标注规则，为自然语言处理领域中致谢文本的情感分析和支持关系识别研究提供基础数据。文件详解数据文件: metadata.csv: CSV格式，包含数据的元信息，如致谢文本的基本标识等字段...

ZIP

图皮语词汇数据库

2025年12月8日

数据集概述该数据集为图皮语词汇数据库（TuLeD），包含图皮语系语言的词汇资源，以压缩文件形式存储，未划分训练测试、数据标签或原始处理数据，为语言研究提供基础词汇数据支持。文件详解文件名称：tupian-language-resources/tuled-v0.12.zip 文件格式：ZIP压缩包（.zip）...

ZIP

BIOMAT_AnatNER生物材料解剖结构命名实体识别训练与验证集

2025年12月7日

数据集概述该数据集是BIOMATDB项目下的BIOMAT-AnatNER语料库训练（750篇文档）与验证（100篇文档）集，聚焦生物材料相关文献中解剖结构（组织、器官、身体部位）的命名实体识别标注，支持相关NER模型开发。文件详解文件名称：BIOMAT-AnatNER_Train_Set.zip 文件格式：ZIP压缩包（.zip）...

ZIP

德国法律语言停用词数据集_SW_DE_RS

2025年12月7日

数据集概述该数据集是针对德国法律语言的专用停用词列表，基于1998-2020年德国联邦宪法法院等机构判决中的高频词开发，补充通用语言停用词列表，适用于法律文本的自然语言处理分析，需结合使用说明文档（Codebook）。文件详解文件名称：SW-DE-RS_v1-0-0_Datensatz.csv 文件格式：CSV...

ZIP

西班牙语COVID_19推文职业检测黄金标准标注数据集2021

2025年12月6日

数据集概述本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文，按训练集、验证集、测试集以六十比二十比二十比例划分，涵盖职业分类与命名实体识别两个子任务的标注数据，同时提供多格式文件及工具脚本，支持自然语言处理模型训练与评估。文件详解数据集为压缩包格式，包含两个子任务相关文件，具体说明如下： - subtask-1（职业分类子任务）：...

ZIP

系统综述自动化文献筛选评估数据集

2025年12月6日

数据集概述本数据集为系统综述自动化文献筛选的评估数据，包含扩展的文献筛选数据集、实验结果评估文件、实验复现脚本及预印本论文，用于对比自动化方法与人工标题摘要及全文筛选决策的效果。文件详解扩展文献数据集（CSV格式）：...

ZIP

谷歌竞赛自然语言处理模型特征数据集-2021

2025年6月1日

谷歌竞赛自然语言处理模型特征数据集-2021 数据来源：互联网公开数据标签：谷歌竞赛,NLP,自然语言处理,特征向量,模型配置,数据集,Parquet,CSV 数据概述：本数据集包含用于谷歌竞赛的自然语言处理（NLP）模型的各种特征和配置信息。数据集组织成多个文件夹，每个文件夹代表不同的NLP模型配置和特征。具体包括：...

ZIP

HuggingFaceTransformers模型库数据集HuggingFaceTransformersModelHubDataset-kxhush

2025年5月30日

HuggingFaceTransformers模型库数据集HuggingFaceTransformersModelHubDataset-kxhush 数据来源：互联网公开数据标签：自然语言处理，机器学习，数据集，Transformer，模型，文本分析，预训练模型，Hugging Face 数据概述：该数据集包含了Hugging Face...

ZIP

自然语言处理模型训练与测试代码及配置数据集NaturalLanguageProcessingModelTrainingandTestingCodeandC...

2025年5月29日

自然语言处理模型训练与测试代码及配置数据集NaturalLanguageProcessingModelTrainingandTestingCodeandConfigurationDataset-a24998667 数据来源：互联网公开数据标签：自然语言处理, 深度学习, 模型训练, 文本处理, 机器学习, 代码, 配置, 测试数据概述：...

ZIP

自然语言处理Transformer模型代码库数据集NaturalLanguageProcessingTransformerModelCodebase-a24998667

2025年5月19日

自然语言处理Transformer模型代码库数据集NaturalLanguageProcessingTransformerModelCodebase-a24998667 数据来源：互联网公开数据标签：自然语言处理, 深度学习, Transformer, 代码库, 模型, PyTorch, Hugging Face, 预训练模型数据概述：...

ZIP

自然语言处理Transformer模型训练与推理数据集NaturalLanguageProcessingTransformerModelTraininga...

2025年4月29日

自然语言处理Transformer模型训练与推理数据集NaturalLanguageProcessingTransformerModelTrainingandInferenceDataset-khanhdaom 数据来源：互联网公开数据标签：自然语言处理, Transformer, 深度学习, 模型训练, 文本处理, 预训练模型, 机器学习, 推理...

ZIP

韩国语翻译数据集

2025年4月15日

韩国语翻译数据集数据来源：互联网公开数据标签：韩国语,翻译,NLP模型,机器翻译,自然语言处理,DeepL API,英译韩,语言学习数据概述：本数据集提供了一组从英语翻译成韩国语的文本数据，适用于GPT4ALL、Dolly、Vicuna等NLP模型的训练与研究。数据集由nlpai-lab团队整理，通过DeepL...

ZIP

找到34个数据集

注册成功！