数据集 - 海数据

成人肥胖管理国际临床指南检索策略数据集

2025年12月11日

数据集概述该数据集包含针对成人肥胖管理国际临床指南检索的完整、可复现的检索策略，围绕“爱尔兰及国际上当前使用的成人肥胖管理相关临床指南”这一研究问题设计，为相关研究提供检索方法支持。文件详解文件名称: Obesity Search Strategies_zenodo.pdf 文件格式: PDF (.pdf) 文件内容:...

ZIP

Bottrop_Boy_Johannes_Apotheke_Based_医疗药房场景完整数据集合

2025年12月11日

数据集概述本数据集包含与Bottrop-Boy Johannes-Apotheke相关的两类文件，分别为TIFF格式的栅格文件和PDF格式的文档文件，各占总数的百分之五十，为相关场景的信息查询或分析提供基础数据支持。文件详解文件名称：08560.tiff 文件格式：TIFF（.tiff）所属类别：栅格文件（raster_files）...

ZIP

Cyberlaw_Forgery_Based_网络法与伪造领域文献综述分析数据

2025年12月10日

数据集概述该数据集为网络法与伪造主题的文献综述资料，包含文献元数据文件、结构化数据文件及图片文件，覆盖文献的标题、发表信息、作者、摘要等核心内容，为相关领域的文献分析提供支持。文件详解文献元数据文件（.bib格式）：包含lens-export.bib、lens-export(1).bib、lens-...

ZIP

PAN14文本对齐原创性测试语料库2014

2025年12月9日

数据集概述本数据集为PAN14任务提供的测试语料库，包含文档对数据，其中部分文档可能存在经自动混淆处理的复用文本，用于研究文本原创性检测及对齐问题。文件详解文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip 文件格式: ZIP压缩包内容说明:...

ZIP

音乐数据挖掘增强开放数据集2019

2025年12月8日

数据集概述该数据集是基于音乐流行度分类构建的音乐元素（艺术家、歌曲、专辑等）增强开放数据集，整合了流行度、元数据、声学及歌词特征三类来源数据，包含1962-2018年的流行度评分与分类，以SQL数据库和压缩CSV格式开放。文件详解文件名称: musicoset_metadata.zip，文件格式: ZIP，可能包含音乐、艺术家、专辑的元数据文件...

ZIP

路透社21578基准语料库

2025年12月8日

数据集概述该数据集为路透社21578基准语料库，是一个用于文本分类等任务的经典基准数据集，以压缩文件形式存储，未提供训练/测试、数据/标签等拆分信息。文件详解文件名称: RCV1.zip 文件格式: ZIP压缩包（.zip）内容说明: 该压缩包包含路透社21578基准语料库的相关数据，无可用内容预览，未检测到命名模式或拆分结构。适用场景...

ZIP

多源信息检索与问答的多智能体系统编排数据集

2025年12月7日

数据集概述本数据集核心内容为一个基于大语言模型的多智能体系统框架文档，该框架用于多源信息检索与问答任务，整合非结构化文档与结构化数据库信息，通过专业智能体协作及自适应提示工程提升查询准确性，在合同管理领域验证了有效性。文件详解文件名称：13624ijnlc03.PDF 文件格式：PDF（.pdf）...

ZIP

SCAS_Fuzzy系统文献综述初始选择任务半自动化策略附录

2025年12月7日

数据集概述该数据集是论文《SCAS-Fuzzy: A Strategy to Semi-Automate the Initial Selection Task in Systematic Literature Reviews》的附录文件，为理解系统文献综述初始选择任务的半自动化策略提供补充信息支持。文件详解文件名称:...

ZIP

所需仪器与数据采集系统文档

2025年12月7日

数据集概述本数据集包含一份关于所需仪器与数据采集系统的PDF文档，提供相关技术或方案的详细说明，为了解该系统的构成与要求提供资料支持。文件详解文件名称：02_G_Girardin.pdf 文件格式：PDF 内容说明：文档围绕所需仪器与数据采集系统展开，具体内容需查看文档原文，可能包含系统构成、技术参数、部署要求等信息。适用场景...

ZIP

ENwikIR1k_维基百科检索开发数据完整集合

2025年12月7日

数据集概述该数据集是通过wikIR工具获取的开发数据集，包含一个压缩文件，未进行训练/测试、数据/标签或原始/处理的拆分，为相关研究提供基础数据支持。文件详解文件名称: wikIR1k.zip 文件格式: ZIP (.zip) 内容说明: 压缩包内包含通过wikIR工具获取的开发数据集内容，具体字段及结构未提供预览信息适用场景...

ZIP

避免搜索目标结果所需的额外搜索策略文档

2025年12月7日

数据集概述本数据集包含一篇关于搜索策略的文档，核心内容围绕在信息检索中，当需要避免直接搜索目标结果时所需采用的额外搜索策略展开，为相关研究或实践提供参考资料。文件详解文件名称: search histories.pdf 文件格式: PDF (.pdf) 内容说明:...

ZIP

多语言错误信息推文数据集

2025年12月7日

数据集概述该数据集包含多语言错误信息推文（MMTweet）相关的标注指南、结构化数据文件、代码脚本等资源，覆盖推文分类、声明匹配等任务，支持多语言错误信息检测与分析研究。文件详解标注指南文件： Data Annotation – Tweet Classification.pdf：PDF格式，推文分类任务的标注规范文档 Data...

ZIP

冠状病毒科学文献动态主题模型标签数据集

2025年12月6日

数据集概述本数据集包含基于论文提出的无监督标签技术生成的动态主题模型（DTM）标签，涵盖100个和200个主题模型，分别使用全语料库和仅COVID-19时期数据训练，为冠状病毒科学文献的主题分析提供标签支持。文件详解文件名称：REPORT_ALL_200.html，文件格式：HTML，内容为使用全语料库训练的200个主题模型的标签报告...

ZIP

社会营销Scimat数据集

2025年12月6日

数据集概述该数据集围绕社会营销Scimat主题构建，包含网页文件和数据文件两类资源，为相关领域的信息查询或数据整理提供基础素材。文件详解网页文件（共4个，格式均为.html）： index.html：可能为数据集的索引页面 period0.html：可能对应第一阶段的网页内容 period1.html：可能对应第二阶段的网页内容...

ZIP

系统评价标题摘要筛选大语言模型评估数据集

2025年12月5日

数据集概述该数据集是用于评估大语言模型（LLMs）在系统评价标题-摘要筛选任务中表现的专用数据集（SESR-Eval），包含实验数据、LLM结果及相关文档，支持复现研究与基准测试。文件详解该数据集以压缩包形式组织，内部包含以下核心目录： - 数据目录（data）：包含复制包选择、信度协议、处理后数据、LLM结果及SESR-...

ZIP

Horizon_Results_Booster_Based_项目数据评估分析完整数据

2025年12月5日

数据集概述本数据集是用于Horizon Results Booster（HRB）分析的输入数据，包含评估最佳实践和创新成果的标准与指标，以及用于项目数据收集标准化的HRB提案，为HRB分析提供数据基础。文件详解文件名称：Sample data from IR.pdf，文件格式：PDF，内容：可能包含来自信息检索的样本数据...

ZIP

多臂老虎机用于信息检索系统池化评估中文档裁决数据集

2025年11月30日

数据集概述该数据集围绕信息检索系统池化评估场景，提供了基于多臂老虎机算法的文档裁决相关数据，包含代码文件、元数据及说明文档，为研究池化评估中的文档裁决方法提供支持。文件详解数据描述文件: pooling_bandits_ms.html: HTML格式，可能包含数据集或项目的详细说明文档代码文件 (.r格式):...

ZIP

ACL_Anthology_Bob信息检索测试完整数据集2008

2025年11月27日

数据集概述 Bob是由剑桥大学创建的信息检索测试集合，专门用于科学文献信息检索实验。该数据集基于ACL Anthology（计算语言学出版物免费数字档案库），包含近一万篇研究论文、82个研究问题查询以及相关度判断。数据以XML和文本格式组织，适用于信息检索算法评估和文献相关性分析研究。文件详解 Bob.zip（主压缩文件）文件格式：ZIP...

ZIP

科研论文引用关系数据集

2025年11月22日

科研论文引用关系数据集_Research_Paper_Citation_Relation 数据来源：互联网公开数据标签：论文引用, 学术研究, 文本分析, 自然语言处理, 知识图谱, 数据挖掘, 文本匹配, 数据集构建数据概述：该数据集包含来自学术研究领域的文本数据，记录了科研论文的标题、摘要以及它们之间的引用关系。主要特征如下：...