-
用户活动标签推理评估数据集
2026年2月12日 30 102 59
数据集概述 本数据集为评估语言模型从事件语义描述生成用户活动标签的能力而构建,包含30项活动(10项含2个事件、10项含3个事件、10项含4个事件),通过余弦相似度对比模型生成标签与人工标注标签的准确性,支持用户界面交互活动的标签推理研究。 文件详解 screenshots_&_soms.zip 文件格式:ZIP...
-
基于弱监督的裂缝检测数据集与预训练模型
2026年2月10日 30 94 52
数据集概述 本数据集包含弱监督裂缝检测相关的数据集文件和预训练模型文件,数据集涵盖Aigle、Crack Forest Dataset、DeepCrack三个子数据集的不同粗糙度标注,包括人工生成和合成生成的标注;预训练模型为基于Xception65的TensorFlow模型,整体用于弱监督裂缝检测研究。 文件详解 弱监督裂缝检测数据集文件...
-
APIS_人文学者传记实体关系标注数据集
2026年2月9日 30 184 56
数据集概述 本数据集是APIS项目子项目的成果,包含《奥地利传记词典》中151篇人文领域学者(历史学家、图书馆员、教师等)的人工标注传记。通过APIS平台标注建立了实体间关系,可用于网络可视化或统计查询,仅含一个压缩文件。 文件详解 文件名称:apis_dataset_mittelalter.zip 文件格式:ZIP(压缩包)...
-
荷兰传记门户_生物信息_关系抽取_标注数据集
2026年2月1日 30 140 0
数据集概述 本数据集为荷兰传记文本的人工标注关系抽取数据集,包含14类生物信息相关关系,如出生时间、居住地、亲属关系等。数据源自荷兰传记门户,包含测试集数据及说明文档,共2个文件,用于自然语言处理领域的关系抽取任务研究。 文件详解 README.md 文件格式:.md...
-
Twitter_Based_用户可信度评估数据集
2026年2月9日 30 33 26
数据集概述 本数据集包含50000名Twitter用户(政治家)的特征数据及人工标注的可信度标签,基于用户社交档案、推文可信度、推文h指数等计算影响力得分,用于分类用户可信度。数据集由Python提取特征生成,结合ModAL框架的主动学习方法完成人工标注与分类。 文件详解 数据文件...
-
cao2022_Based_培养皿蚂蚁标注图像数据
2026年2月9日 30 6 2
数据集概述 本数据集包含培养皿中蚂蚁的60张标注图像,为“ANTS--ant detection and tracking”数据集的未修改子集。每张图像中的蚂蚁均以多边形形式标注,标注信息采用COCO格式存储于JSON文件中,可用于蚂蚁检测、跟踪等生物图像分析任务。 文件详解 文件名称:cao2022.zip 文件格式:ZIP...
-
Tycho_Rays_月球表面陨石坑普查动力学分析数据
2026年2月9日 30 67 36
数据集概述 本数据集为从ArcMap输出的月球表面陨石坑数据Excel文件,包含人工标注和自动化检测的陨石坑原始数据、分析用筛选数据,用于研究月球表面平衡动力学与表岩屑分层特性。 文件详解 DATA_HUMA_craters_raw.xlsx 文件格式:XLSX 字段映射介绍:包含186和808...
-
BabylonBee_Based_多模态讽刺幽默标注数据集
2026年1月29日 30 183 62
数据集概述 本数据集为多模态(图像+文本)讽刺研究设计,包含一万零八百八十九条人工标注样本,来源于讽刺内容网站https://babylonbee.com/。数据区分讽刺内容的幽默属性及认知机制,支持多模态讽刺识别、幽默机制分析等研究,含两个核心文件。 文件详解 README.docx 文件格式:DOCX...
-
Gollum_Based_大规模多源知识图谱匹配金标准数据集
2026年1月29日 30 8 4
数据集概述 本数据集为Gollum金标准,用于大规模多源知识图谱匹配任务评估,包含四万一千四百九十九个知识图谱间二十七万五千余条对应关系。数据源自DBpedia提取框架生成的维基农场知识图谱,提供无监督、有监督(含同一维基/不同维基训练测试集)三种版本,支持知识图谱匹配方法的有效性与可扩展性验证。 文件详解 XML文件(9个,占比56.25%)...
-
SciRAG_QA_Based_多领域科学封闭问题问答基准数据集
2026年2月9日 30 148 114
数据集概述 本数据集是用于科学问答(QA)系统基准测试的多领域封闭问题数据集,覆盖10个研究领域下的34个主题,包含108条人工标注的问答对,每条数据标注了答案类型、难度等级及带来源论文链接的黄金参考,可用于验证检索增强生成(RAG)系统在科学领域的性能。 文件详解 metadata.csv 文件格式:CSV...
-
WWW2020_Based_Web表格新实体发现实验复现资源
2026年2月8日 30 86 27
数据集概述 本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源,包含三个用于Web表格新实体发现、实体类型与提及解析的测试集,以及300万张表格的提及-实体、标题-属性对应关系数据,支持论文中实体链接、表格匹配、实体解析实验的复现。 文件详解 压缩包文件...
-
CompMusic_京剧唱腔人工标注数据集
2026年2月2日 30 10 6
数据集概述 本数据集包含34段京剧唱腔,通过Praat软件进行多维度人工标注,覆盖西皮、二黄两大声腔及旦、净、老旦、老生、小生五种角色类型。每段唱腔对应Praat TextGrid标注文件,包含唱腔名称、表演者、声腔、板式等层级信息,同时提供ariaInfo.txt汇总文件,支持京剧唱腔结构分析与音乐信息检索研究。 文件详解...
-
Bangla_Based_孟加拉语信息检索测试集数据
2026年1月31日 30 145 82
数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
-
YouTube_印度两大政党评论情感标注数据集2019
2026年1月31日 30 3 0
数据集概述 本数据集包含印度两大政党(印度国民大会党、印度人民党)YouTube视频下的用户评论及人工标注的情感标签,分为正面(标签1)和负面(标签0)两类。2019年3月捐赠,共含3950条评论,其中印度人民党数据集1952条、印度国民大会党数据集1998条,两类评论数量均等,用于政治舆情相关的二元分类任务。 文件详解 readme.docx...
-
CoderEval_Based_代码生成基准评估数据集
2026年1月31日 30 4 2
数据集概述 本数据集为CoderEval代码生成基准数据集,包含四十二个文件,无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据,涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包,支持超越独立函数的实用代码生成能力评估。 文件详解 数据文件(.json)...
-
AD_NLP_Based阿尔茨海默病临床表型提取研究数据
2026年1月30日 30 78 64
数据集概述 本数据集包含基于自然语言处理(NLP)技术从临床文本中提取阿尔茨海默病(AD)相关临床表型的研究数据,涉及医疗合并症、生物标志物、神经行为测试分数等表型类型。数据支持评估NLP提取管道的性能,可为AD风险预测模型开发提供结构化表型信息,共包含2个文件。 文件详解 README.md 文件格式:MD...
-
南非语言嵌入评估数据集_Simlex_和_WordSim
2026年1月30日 30 35 27
数据集概述 本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。 文件详解 文件名称:SimLex-999-orig - Sepedi.xlsx...
-
CEEC_Based_历史英语拼写规范化人工标注测试集数据
2026年1月30日 30 3 1
数据集概述 本数据集为CEEC语料库历史英语规范化测试集,包含人工生成的三组历史-现代拼写对列表:混合世纪列表、15世纪列表和18世纪列表,每组各100对。历史形式均源自CEEC语料库,总计包含一个文件。 文件详解 文件名称:test_set_of_normalizations.xlsx 文件格式:XLSX...
-
学术会议中的信息搜寻行为_Twitter信息行为研究数据集
2026年1月29日 30 14 1
数据集概述 本数据集包含学术会议场景下的Twitter社交媒体数据,分为两部分:一是2008至2013年66个学术社区发布的33万余条会议相关推文;二是含人工标注的信息寻求类推文(1,899条标注数据、9,967条未标注数据),用于研究学术会议中的信息寻求行为、社交网络特征及响应规律。 文件详解...
-
Webis_SMC_12_用户搜索任务标注语料库_2012版
2026年1月29日 30 39 33
数据集概述 本数据集为Webis Search Mission Corpus 2012(Webis-SMC-12),包含127名用户的8840次搜索引擎交互记录。由两名人工标注员将交互划分为2881个逻辑会话和1378个任务,初始分歧通过讨论达成共识。数据集仅含1个压缩文件,无目录结构。 文件详解 文件名称:corpus-webis-...



