数据集 - 海数据

数据集概述本数据集为TwiBot-22推特机器人检测基准，包含推特、用户、列表、话题标签四类实体信息，以及训练/验证/测试划分、真实标签和网络边数据。旨在解决现有基于图的推特机器人检测数据集规模有限、结构不完整、标注质量低的问题，支持新型图基机器人检测方法的开发与评估。文件详解 readme.md 文件格式：MD...

ZIP

PaGA_12_Based_26类体裁德语文本分类语料库

数据集概述本数据集为2012年帕德博恩体裁分析语料库（PaGA-12），包含1639个HTML文档，覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日，每个文档手动标注唯一体裁，每种体裁至少包含50个文档。文档均为德语文本，已移除框架集，以MySQL数据库转储形式交付。文件详解文件名称：corpus-paga-12.zip...

ZIP

List_MID_Based_RDF列表系统评估基准数据集

数据集概述本数据集为List.MID基准，用于评估RDF列表系统性能。包含RDF列表数据集生成器（支持多种模型和规模）及SPARQL查询集，数据基于社区 curated的Web MIDI文件生成，涵盖不同长度的音乐事件列表，解决RDF列表评估缺乏标准化基准的问题。文件详解文件名称：List.MID-master.zip 文件格式：ZIP...

ZIP

CBRBench_Based_本体排名基准测试套件_数据集

数据集概述本数据集是CBRBench本体排名基准测试套件，包含通过爬取prefix.cc种子URI获取的本体集合、基于Linked Open Vocabularies搜索引擎2012-2014年查询日志生成的查询集，以及10位专家对查询术语的本体概念理想排名结果，可用于评估本体排名算法性能。文件详解文件名称：CANON.zip 文件格式：ZIP...

ZIP

SMiCRM_Based_化学反应机理分子图像识别基准数据集

数据集概述本数据集为SMiCRM（Structural molecular identifier of Molecular images in Chemical Reaction...

ZIP

METASHIFT_Based_上下文分布偏移评估数据集集合

数据集概述本数据集为METASHIFT，是用于评估机器学习模型在上下文分布偏移下性能的数据集集合。它基于Visual Genome的自然异质性和注释构建，包含12,868组自然图像，覆盖410个类别。通过元数据聚类生成不同上下文的图像子集，提供分布偏移的显式解释及距离评分，并匹配ImageNet层次结构，支持模型评估任务构建。文件详解...

ZIP

Subgraph_Matching_Based子图匹配数据集

数据集概述本数据集为子图匹配相关数据集，包含11个文件，无目录结构。文件类型以.pickle为主，共10个，占比约90.91%，另有1个.zip文件。涵盖特殊领域（如cosmos、hprd、dblp-community、brain、ethereum-...

ZIP

BioASQ_Based_生物医学专家真实需求问答基准数据集

数据集概述本数据集为BioASQ生物医学问答基准数据集，包含英文问题、标准参考答案及相关材料，反映生物医学专家真实信息需求，兼具挑战性与实用性。数据集融合结构化与非结构化数据，除精确答案外还包含理想答案（摘要形式），适用于问答系统、多文档摘要、信息检索等多任务研究，且随BioASQ挑战赛持续扩展。文件详解 README文件文件名称：README...

ZIP

NCERT_CBSE_Based_LLM教育聊天机器人训练数据

数据集概述本数据集用于训练基于语言模型（LLM）的教育聊天机器人，包含印度国家教育研究与培训委员会（NCERT）官方网站的社会科学学习材料、中央中等教育委员会（CBSE）官方网站的往年模型答案、考试试卷及对应答案密钥。数据集共3个压缩文件，无目录层级，可支持教育领域智能聊天机器人的开发与优化。文件详解 study material.zip...

ZIP

MedLatin_Based_中世纪拉丁语作者分析数据集_v1

数据集概述本数据集包含MedLatinEpi和MedLatinLit两个子数据集，合计324篇标注作者的中世纪拉丁语文本。其中MedLatinEpi含294篇书信类文本，MedLatinLit含30篇文学评论及各主题论著类文本，可为作者归属、作者验证等计算语言学任务提供研究基础。文件详解文件名称：MedLatin.zip 文件格式：ZIP...

ZIP

Fairness_Based_合成数据生成公平性研究基准数据集

数据集概述本数据集是用于研究合成数据生成公平性的基准数据集，包含traveltime、cardio、credit、German Credit等多个子数据集，覆盖人口普查、医疗、金融等领域，涉及工作通勤时间、心血管疾病、信贷违约等预测任务，提供结构化数据及类型描述文件，支持公平性评估研究。文件详解数据文件（CSV格式）...

ZIP

CroQS_Based_跨模态查询建议基准数据集_v1_0_0

数据集概述本数据集为CroQS (Cross-modal Query Suggestion) v1.0.0基准数据集，用于评估文本到图像检索场景中，基于视觉结果生成优化文本查询的方法。包含初始文本查询、图像结果语义簇及对应查询建议，支持跨模态查询建议任务研究。文件详解文件名称：CroQS_Benchmark_v1.0.0.json...

ZIP

LASCAD_showcases_软件分类与相似应用检测数据集

数据集概述本数据集包含来自GitHub的103个项目，是LASCAD（语言无关软件分类与相似应用检测）研究的一部分。数据集对项目源代码进行了处理，可作为软件分类和相似应用检测工具的基准数据。文件详解文件名称：showcases_out.zip 文件格式：ZIP...

ZIP

PMC_OA_Based_神经疾病生物医学文献表格识别基准数据集

数据集概述本数据集包含来自1164篇PMC开放获取（OA）神经疾病相关文献的1650个表格，采用国际文档分析与识别会议（ICDAR）格式结构化。同时提供分类CSV文件，将表格分为简单、复杂、极复杂三类。数据集共863个文件，以XML格式为主，支持生物医学文献表格识别任务的基准测试。文件详解 XML文件（862个）...

ZIP

AlignAPI_Based_本体匹配测试生成与匹配器结果数据集

数据集概述本数据集为支持论文结果的归档文件，包含通过Alignment API生成的本体匹配测试、匹配器运行结果及分析脚本。内容涉及测试生成、结果评估、原始基准数据集、种子本体、生成数据集及分析结果等，可用于复现本体匹配实验及验证匹配器性能。文件详解归档文件文件名称：bench2012.zip 文件格式：ZIP...

ZIP

Taranaki_Based_新西兰地震勘探半自动解释基准数据集

数据集概述本数据集为新西兰塔拉纳基盆地Tui-3D地震勘探的半自动解释基准数据，包含十四组标记地层不整合的地震层位，其中五组在33条Inline剖面、九组在19条Crossline剖面完成标注。同时涵盖插值法与深度学习法的对比实验结果，以及不同图像块大小训练模型的独立实验数据，共包含五个文件。文件详解...

ZIP

OGRDB_Based小鼠DBA_1J品系IGLV种系参考数据集

数据集概述本数据集为小鼠DBA/1J品系的IG受体种系参考数据，发布于Open Germline Receptor Database（OGRDB），包含DBA/1J IGLV的种系序列及相关文件，共4个文件，支持免疫受体基因组的研究与分析。文件详解数据文件（.fasta格式）文件名称：1J...

ZIP

BPID_Based_个人身份去重基准数据集_EMNLP2024