-
CompMusic_京剧唱腔人工标注数据集
2026年2月2日 30 143 23
数据集概述 本数据集包含34段京剧唱腔,通过Praat软件进行多维度人工标注,覆盖西皮、二黄两大声腔及旦、净、老旦、老生、小生五种角色类型。每段唱腔对应Praat TextGrid标注文件,包含唱腔名称、表演者、声腔、板式等层级信息,同时提供ariaInfo.txt汇总文件,支持京剧唱腔结构分析与音乐信息检索研究。 文件详解...
-
荷兰传记门户_生物信息_关系抽取_标注数据集
2026年2月1日 0 30 16
数据集概述 本数据集为荷兰传记文本的人工标注关系抽取数据集,包含14类生物信息相关关系,如出生时间、居住地、亲属关系等。数据源自荷兰传记门户,包含测试集数据及说明文档,共2个文件,用于自然语言处理领域的关系抽取任务研究。 文件详解 README.md 文件格式:.md...
-
Bangla_Based_孟加拉语信息检索测试集数据
2026年1月31日 30 41 13
数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
-
YouTube_印度两大政党评论情感标注数据集2019
2026年1月31日 30 55 12
数据集概述 本数据集包含印度两大政党(印度国民大会党、印度人民党)YouTube视频下的用户评论及人工标注的情感标签,分为正面(标签1)和负面(标签0)两类。2019年3月捐赠,共含3950条评论,其中印度人民党数据集1952条、印度国民大会党数据集1998条,两类评论数量均等,用于政治舆情相关的二元分类任务。 文件详解 readme.docx...
-
CoderEval_Based_代码生成基准评估数据集
2026年1月31日 30 68 44
数据集概述 本数据集为CoderEval代码生成基准数据集,包含四十二个文件,无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据,涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包,支持超越独立函数的实用代码生成能力评估。 文件详解 数据文件(.json)...
-
AD_NLP_Based阿尔茨海默病临床表型提取研究数据
2026年1月30日 30 124 41
数据集概述 本数据集包含基于自然语言处理(NLP)技术从临床文本中提取阿尔茨海默病(AD)相关临床表型的研究数据,涉及医疗合并症、生物标志物、神经行为测试分数等表型类型。数据支持评估NLP提取管道的性能,可为AD风险预测模型开发提供结构化表型信息,共包含2个文件。 文件详解 README.md 文件格式:MD...
-
南非语言嵌入评估数据集_Simlex_和_WordSim
2026年1月30日 30 92 27
数据集概述 本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。 文件详解 文件名称:SimLex-999-orig - Sepedi.xlsx...
-
CEEC_Based_历史英语拼写规范化人工标注测试集数据
2026年1月30日 30 122 74
数据集概述 本数据集为CEEC语料库历史英语规范化测试集,包含人工生成的三组历史-现代拼写对列表:混合世纪列表、15世纪列表和18世纪列表,每组各100对。历史形式均源自CEEC语料库,总计包含一个文件。 文件详解 文件名称:test_set_of_normalizations.xlsx 文件格式:XLSX...
-
学术会议中的信息搜寻行为_Twitter信息行为研究数据集
2026年1月29日 30 82 69
数据集概述 本数据集包含学术会议场景下的Twitter社交媒体数据,分为两部分:一是2008至2013年66个学术社区发布的33万余条会议相关推文;二是含人工标注的信息寻求类推文(1,899条标注数据、9,967条未标注数据),用于研究学术会议中的信息寻求行为、社交网络特征及响应规律。 文件详解...
-
BabylonBee_Based_多模态讽刺幽默标注数据集
2026年1月29日 0 193 143
数据集概述 本数据集为多模态(图像+文本)讽刺研究设计,包含一万零八百八十九条人工标注样本,来源于讽刺内容网站https://babylonbee.com/。数据区分讽刺内容的幽默属性及认知机制,支持多模态讽刺识别、幽默机制分析等研究,含两个核心文件。 文件详解 README.docx 文件格式:DOCX...
-
Webis_SMC_12_用户搜索任务标注语料库_2012版
2026年1月29日 30 114 56
数据集概述 本数据集为Webis Search Mission Corpus 2012(Webis-SMC-12),包含127名用户的8840次搜索引擎交互记录。由两名人工标注员将交互划分为2881个逻辑会话和1378个任务,初始分歧通过讨论达成共识。数据集仅含1个压缩文件,无目录结构。 文件详解 文件名称:corpus-webis-...
-
SEConvo_Based_社交工程对话模拟数据集_2024
2026年1月29日 30 71 41
数据集概述 本数据集包含1400条基于聊天的社交工程对话,模拟LinkedIn场景中的真实沟通,覆盖学术合作、学术资助、新闻采访、招聘等场景。所有对话由GPT-4-Turbo生成,包含单LLM模拟和双智能体交互两种模式,其中400条对话经过人工标注,可用于社交工程攻击防御相关的研究与分析。 文件详解 README.md 文件格式:MD...
-
Gollum_Based_大规模多源知识图谱匹配金标准数据集
2026年1月29日 0 189 92
数据集概述 本数据集为Gollum金标准,用于大规模多源知识图谱匹配任务评估,包含四万一千四百九十九个知识图谱间二十七万五千余条对应关系。数据源自DBpedia提取框架生成的维基农场知识图谱,提供无监督、有监督(含同一维基/不同维基训练测试集)三种版本,支持知识图谱匹配方法的有效性与可扩展性验证。 文件详解 XML文件(9个,占比56.25%)...
-
SIMPITIKI_GITHUB_意大利语文本简化语料库数据
2026年1月29日 30 188 183
数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
-
GRN_MARVEL_Based_音视频人群计数原始标注数据
2026年1月29日 30 45 35
数据集概述 本数据集包含从马耳他西海岸乡村小镇Mgarr的IP摄像头采集的原始音视频数据,已对行人进行人工标注。数据集共2个文件,无目录层级,包含压缩包和元数据文档两类文件,可用于音视频人群计数相关研究。 文件详解 压缩包文件 文件名称:GRN_MARVEL_AUDIO_VISUAL_CROWD_COUNTING.zip 文件格式:ZIP...
-
EconBiz_Based_经济学学术图表文本提取图像数据集
2026年1月29日 30 181 124
数据集概述 本数据集是经济学领域的学术图表文本提取语料库,包含121张学术图表,随机抽取自EconBiz的288,000篇开放获取出版物。图表类型涵盖条形图、饼图、折线图、地图、散点图等,所有图表均经过人工标注形成黄金标准,用于评估文本提取工具。 文件详解 文件名称:EconBiz.zip 文件格式:ZIP...
-
ASR_Based_牙科记录自动语音识别转录准确性研究数据集
2026年1月29日 30 2 1
数据集概述 本数据集为牙科记录自动语音识别转录准确性研究的分析数据集,包含支持相关分析的所有数据。初始仅向审稿阶段的编辑和同行评审人员开放,论文接收后将提供无限制访问。数据集含1个文件。 文件详解 文件名称:oaisr data2.xlsx 文件格式:XLSX...
-
数据11K_Hands_Based_手部珠宝分割掩码标注数据
2026年1月29日 30 174 63
数据集概述 本数据集为11K Hands数据集补充了手部珠宝的分割掩码数据,包含经筛选的3179张带珠宝的手部图像的人工标注掩码,掩码与原始图像尺寸、文件名一致,以PNG格式存储,像素值0代表背景、1代表珠宝,用于图像分割任务。 文件详解 文件名称:segmentation_mask.zip 文件格式:ZIP(压缩包)...
-
PCI_2023_Based_GDPR时代希腊隐私政策数据集
2026年1月29日 30 178 140
数据集概述 本数据集包含希腊语隐私政策文本及相关分析数据,覆盖希腊访问量较高且提供希腊语隐私政策的网站。数据结合GDPR框架下的用户权利维度,可用于隐私合规性分析、政策文本特征研究等场景,总计包含十七份文件。 文件详解 隐私政策基础信息文件 文件名称:ranked_domains_gr_dataset-nodupl.csv 文件格式:CSV...
-
CroQS_Based_跨模态查询建议基准数据集_v1_0_0
2026年1月28日 30 141 19
数据集概述 本数据集为CroQS (Cross-modal Query Suggestion) v1.0.0基准数据集,用于评估文本到图像检索场景中,基于视觉结果生成优化文本查询的方法。包含初始文本查询、图像结果语义簇及对应查询建议,支持跨模态查询建议任务研究。 文件详解 文件名称:CroQS_Benchmark_v1.0.0.json...



