-
TwiBot22_Based_推特机器人检测基准数据集
数据集概述 本数据集为TwiBot-22推特机器人检测基准,包含推特、用户、列表、话题标签四类实体信息,以及训练/验证/测试划分、真实标签和网络边数据。旨在解决现有基于图的推特机器人检测数据集规模有限、结构不完整、标注质量低的问题,支持新型图基机器人检测方法的开发与评估。 文件详解 readme.md 文件格式:MD...
-
PaGA_12_Based_26类体裁德语文本分类语料库
数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
-
List_MID_Based_RDF列表系统评估基准数据集
数据集概述 本数据集为List.MID基准,用于评估RDF列表系统性能。包含RDF列表数据集生成器(支持多种模型和规模)及SPARQL查询集,数据基于社区 curated的Web MIDI文件生成,涵盖不同长度的音乐事件列表,解决RDF列表评估缺乏标准化基准的问题。 文件详解 文件名称:List.MID-master.zip 文件格式:ZIP...
-
CBRBench_Based_本体排名基准测试套件_数据集
数据集概述 本数据集是CBRBench本体排名基准测试套件,包含通过爬取prefix.cc种子URI获取的本体集合、基于Linked Open Vocabularies搜索引擎2012-2014年查询日志生成的查询集,以及10位专家对查询术语的本体概念理想排名结果,可用于评估本体排名算法性能。 文件详解 文件名称:CANON.zip 文件格式:ZIP...
-
SMiCRM_Based_化学反应机理分子图像识别基准数据集
数据集概述 本数据集为SMiCRM(Structural molecular identifier of Molecular images in Chemical Reaction...
-
METASHIFT_Based_上下文分布偏移评估数据集集合
数据集概述 本数据集为METASHIFT,是用于评估机器学习模型在上下文分布偏移下性能的数据集集合。它基于Visual Genome的自然异质性和注释构建,包含12,868组自然图像,覆盖410个类别。通过元数据聚类生成不同上下文的图像子集,提供分布偏移的显式解释及距离评分,并匹配ImageNet层次结构,支持模型评估任务构建。 文件详解...
-
Subgraph_Matching_Based子图匹配数据集
数据集概述 本数据集为子图匹配相关数据集,包含11个文件,无目录结构。文件类型以.pickle为主,共10个,占比约90.91%,另有1个.zip文件。涵盖特殊领域(如cosmos、hprd、dblp-community、brain、ethereum-...
-
BioASQ_Based_生物医学专家真实需求问答基准数据集
数据集概述 本数据集为BioASQ生物医学问答基准数据集,包含英文问题、标准参考答案及相关材料,反映生物医学专家真实信息需求,兼具挑战性与实用性。数据集融合结构化与非结构化数据,除精确答案外还包含理想答案(摘要形式),适用于问答系统、多文档摘要、信息检索等多任务研究,且随BioASQ挑战赛持续扩展。 文件详解 README文件 文件名称:README...
-
NCERT_CBSE_Based_LLM教育聊天机器人训练数据
数据集概述 本数据集用于训练基于语言模型(LLM)的教育聊天机器人,包含印度国家教育研究与培训委员会(NCERT)官方网站的社会科学学习材料、中央中等教育委员会(CBSE)官方网站的往年模型答案、考试试卷及对应答案密钥。数据集共3个压缩文件,无目录层级,可支持教育领域智能聊天机器人的开发与优化。 文件详解 study material.zip...
-
MedLatin_Based_中世纪拉丁语作者分析数据集_v1
数据集概述 本数据集包含MedLatinEpi和MedLatinLit两个子数据集,合计324篇标注作者的中世纪拉丁语文本。其中MedLatinEpi含294篇书信类文本,MedLatinLit含30篇文学评论及各主题论著类文本,可为作者归属、作者验证等计算语言学任务提供研究基础。 文件详解 文件名称:MedLatin.zip 文件格式:ZIP...
-
Fairness_Based_合成数据生成公平性研究基准数据集
数据集概述 本数据集是用于研究合成数据生成公平性的基准数据集,包含traveltime、cardio、credit、German Credit等多个子数据集,覆盖人口普查、医疗、金融等领域,涉及工作通勤时间、心血管疾病、信贷违约等预测任务,提供结构化数据及类型描述文件,支持公平性评估研究。 文件详解 数据文件(CSV格式)...
-
CroQS_Based_跨模态查询建议基准数据集_v1_0_0
数据集概述 本数据集为CroQS (Cross-modal Query Suggestion) v1.0.0基准数据集,用于评估文本到图像检索场景中,基于视觉结果生成优化文本查询的方法。包含初始文本查询、图像结果语义簇及对应查询建议,支持跨模态查询建议任务研究。 文件详解 文件名称:CroQS_Benchmark_v1.0.0.json...
-
LASCAD_showcases_软件分类与相似应用检测数据集
数据集概述 本数据集包含来自GitHub的103个项目,是LASCAD(语言无关软件分类与相似应用检测)研究的一部分。数据集对项目源代码进行了处理,可作为软件分类和相似应用检测工具的基准数据。 文件详解 文件名称:showcases_out.zip 文件格式:ZIP...
-
PMC_OA_Based_神经疾病生物医学文献表格识别基准数据集
数据集概述 本数据集包含来自1164篇PMC开放获取(OA)神经疾病相关文献的1650个表格,采用国际文档分析与识别会议(ICDAR)格式结构化。同时提供分类CSV文件,将表格分为简单、复杂、极复杂三类。数据集共863个文件,以XML格式为主,支持生物医学文献表格识别任务的基准测试。 文件详解 XML文件(862个)...
-
AlignAPI_Based_本体匹配测试生成与匹配器结果数据集
数据集概述 本数据集为支持论文结果的归档文件,包含通过Alignment API生成的本体匹配测试、匹配器运行结果及分析脚本。内容涉及测试生成、结果评估、原始基准数据集、种子本体、生成数据集及分析结果等,可用于复现本体匹配实验及验证匹配器性能。 文件详解 归档文件 文件名称:bench2012.zip 文件格式:ZIP...
-
Taranaki_Based_新西兰地震勘探半自动解释基准数据集
数据集概述 本数据集为新西兰塔拉纳基盆地Tui-3D地震勘探的半自动解释基准数据,包含十四组标记地层不整合的地震层位,其中五组在33条Inline剖面、九组在19条Crossline剖面完成标注。同时涵盖插值法与深度学习法的对比实验结果,以及不同图像块大小训练模型的独立实验数据,共包含五个文件。 文件详解...
-
OGRDB_Based小鼠DBA_1J品系IGLV种系参考数据集
数据集概述 本数据集为小鼠DBA/1J品系的IG受体种系参考数据,发布于Open Germline Receptor Database(OGRDB),包含DBA/1J IGLV的种系序列及相关文件,共4个文件,支持免疫受体基因组的研究与分析。 文件详解 数据文件(.fasta格式) 文件名称:1J...
-
BPID_Based_个人身份去重基准数据集_EMNLP2024
数据集概述 本数据集为EMNLP 2024论文《BPID: A Benchmark for Personal Identity Deduplication》的配套基准数据,用于个人身份去重任务。数据集以压缩包形式提供,无训练/测试、数据/标签、原始/处理数据的划分,包含1个压缩文件。 文件详解 文件名称:BPID.zip 文件格式:ZIP...
-
VIDIMU_Based_单目视频与IMU人体运动学评估基准数据集
数据集概述 本数据集为单目视频运动学评估基准数据,基于VIDIMU数据集构建,包含十三项临床相关日常活动的运动数据,通过普通摄像机和五个惯性测量单元(IMU)采集。数据集对比了深度学习单目视频姿态估计模型与IMU驱动方法的关节角度评估结果,涉及多种评估指标与图形化分析,为运动分析相关研究提供参考。 文件详解 分析文件包(analysis.zip)...
-
Adult_Income_Dataset_人口统计与收入预测数据集
数据集概述 本数据集基于1994年美国人口普查数据,包含人口统计和收入相关信息,核心用于预测个人年收入是否超过5万美元。数据集经清洗处理,包含年龄、教育程度、职业等属性,是收入分类研究的常用基准数据,适用于学术研究场景。 文件详解 metadata.json 文件格式:JSON...



