-
PyOBO_Based_生物医学实体同义词数据
2026年2月1日 30 173 162
数据集概述 本数据集包含从PyOBO中的术语和本体中提取的大量生物医学实体的前缀、标识符和同义词信息,以gzip压缩的三列TSV文件格式存储。数据集还包含元数据、样本和汇总文件,可用于生物医学术语的同义词查询和分析。 文件详解 数据文件 文件名称:synonyms.tsv.gz 文件格式:TSV.GZ...
-
Sri_Lankan_分类广告匹配检索研究数据集
2026年2月1日 30 44 27
数据集概述 本数据集为斯里兰卡分类广告市场的广告匹配、语义检索及意图对齐研究开发,包含54489个广告对,来源覆盖五大平台,含人类验证真实样本与LLM生成样本。覆盖电子、车辆、房产三大类及20个子类,支持低资源子类别模型泛化训练评估。 文件详解...
-
DHREAAL数字人文检索评估数据集_艺术建筑与生命科学语义检索评估数据集
2026年1月21日 30 52 2
数据集概述 本数据集为数字人文领域的检索评估数据集,聚焦艺术、建筑与生命科学领域的语义检索任务,包含基于内容和实例的图像检索基准真值数据。用于比较不同检索方法并优化评估体系,是构建更广泛数据集的前期基础。目前仍在开发中。 文件详解 文件名称:dhreaal.zip 文件格式:ZIP(压缩包)...
-
SDGs_Based_联合国可持续发展目标语义范围受控词汇表_V1_2_1_3
2026年1月20日 30 108 0
数据集概述 本数据集是定义联合国可持续发展目标(SDGs)语义范围的受控词汇表,包含经过多步骤构建的标准化术语集合,可用于对文本记录进行SDGs相关的标签标注与索引,支持SDGs主题内容的语义关联与检索。 文件详解 文件名称:sdg_vocabulary_V1.2 [zenodo].xlsx 文件格式:XLSX...
-
NatureKG_Based_自然金融本体与知识图谱及Text2Cypher应用数据
2026年1月18日 30 24 18
数据集概述 本数据集包含NatureKG相关资源,NatureKG是面向自然金融领域(聚焦建筑环境部门)开发的本体与知识图谱,同时提供用于训练LLM将文本转换为Cypher查询的数据集及建筑环境与来源信息数据,支持自然金融领域的知识组织与语义查询。 文件详解 Neo4j dump文件 文件名称:neo4j.dump 文件格式:dump...
-
musiXplora_Based_Wolf_Graes_g0519_16世纪历史人物档案数据
2026年1月17日 30 178 164
数据集概述 本数据集为历史人物Wolf Graes(musiXplora-ID:g0519)的结构化档案数据,记录其1504-1516年间的活动信息,包括身份标识、性别、活动领域(宫廷、乐器制造)、职业(琉特琴制作师)及活动地点(帕绍)等核心内容,以JSON格式存储,便于历史人物研究与数据整合。 文件详解 文件名称:g0519_DE.json...
-
ARASAAC黑白象形图数据集14之13
2025年12月20日 30 112 111
数据集概述 该数据集是ARASAAC项目的第十四部分中的第十三部分,包含一千张由Sergio Palao创作的黑白象形图。这些象形图覆盖医疗、图像视觉、自然语言处理、音频等多个领域的语义关键词,以PNG格式统一存储,无目录层级划分,为相关领域的视觉素材应用提供支持。 文件详解...
-
句子嵌入表示数据集SentenceEmbeddingDataset-dm4006
2025年4月24日 30 200 171
句子嵌入表示数据集SentenceEmbeddingDataset-dm4006 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,深度学习,语义检索,信息提取,人工智能 数据概述: 该数据集包含大量的句子及其对应的嵌入向量表示,记录了文本数据通过特定算法生成的向量特征。主要特征如下:...



