找到8个数据集

标签: 语义检索

过滤结果
  • PyOBO_Based_生物医学实体同义词数据

    2026年2月1日 30 173 162

    数据集概述 本数据集包含从PyOBO中的术语和本体中提取的大量生物医学实体的前缀、标识符和同义词信息,以gzip压缩的三列TSV文件格式存储。数据集还包含元数据、样本和汇总文件,可用于生物医学术语的同义词查询和分析。 文件详解 数据文件 文件名称:synonyms.tsv.gz 文件格式:TSV.GZ...
    packageimg
  • Sri_Lankan_分类广告匹配检索研究数据集

    2026年2月1日 30 44 27

    数据集概述 本数据集为斯里兰卡分类广告市场的广告匹配、语义检索及意图对齐研究开发,包含54489个广告对,来源覆盖五大平台,含人类验证真实样本与LLM生成样本。覆盖电子、车辆、房产三大类及20个子类,支持低资源子类别模型泛化训练评估。 文件详解...
    packageimg
  • DHREAAL数字人文检索评估数据集_艺术建筑与生命科学语义检索评估数据集

    2026年1月21日 30 52 2

    数据集概述 本数据集为数字人文领域的检索评估数据集,聚焦艺术、建筑与生命科学领域的语义检索任务,包含基于内容和实例的图像检索基准真值数据。用于比较不同检索方法并优化评估体系,是构建更广泛数据集的前期基础。目前仍在开发中。 文件详解 文件名称:dhreaal.zip 文件格式:ZIP(压缩包)...
    packageimg
  • SDGs_Based_联合国可持续发展目标语义范围受控词汇表_V1_2_1_3

    2026年1月20日 30 108 0

    数据集概述 本数据集是定义联合国可持续发展目标(SDGs)语义范围的受控词汇表,包含经过多步骤构建的标准化术语集合,可用于对文本记录进行SDGs相关的标签标注与索引,支持SDGs主题内容的语义关联与检索。 文件详解 文件名称:sdg_vocabulary_V1.2 [zenodo].xlsx 文件格式:XLSX...
    packageimg
  • NatureKG_Based_自然金融本体与知识图谱及Text2Cypher应用数据

    2026年1月18日 30 24 18

    数据集概述 本数据集包含NatureKG相关资源,NatureKG是面向自然金融领域(聚焦建筑环境部门)开发的本体与知识图谱,同时提供用于训练LLM将文本转换为Cypher查询的数据集及建筑环境与来源信息数据,支持自然金融领域的知识组织与语义查询。 文件详解 Neo4j dump文件 文件名称:neo4j.dump 文件格式:dump...
    packageimg
  • musiXplora_Based_Wolf_Graes_g0519_16世纪历史人物档案数据

    2026年1月17日 30 178 164

    数据集概述 本数据集为历史人物Wolf Graes(musiXplora-ID:g0519)的结构化档案数据,记录其1504-1516年间的活动信息,包括身份标识、性别、活动领域(宫廷、乐器制造)、职业(琉特琴制作师)及活动地点(帕绍)等核心内容,以JSON格式存储,便于历史人物研究与数据整合。 文件详解 文件名称:g0519_DE.json...
    packageimg
  • ARASAAC黑白象形图数据集14之13

    2025年12月20日 30 112 111

    数据集概述 该数据集是ARASAAC项目的第十四部分中的第十三部分,包含一千张由Sergio Palao创作的黑白象形图。这些象形图覆盖医疗、图像视觉、自然语言处理、音频等多个领域的语义关键词,以PNG格式统一存储,无目录层级划分,为相关领域的视觉素材应用提供支持。 文件详解...
    packageimg
  • 句子嵌入表示数据集SentenceEmbeddingDataset-dm4006

    2025年4月24日 30 200 171

    句子嵌入表示数据集SentenceEmbeddingDataset-dm4006 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,深度学习,语义检索,信息提取,人工智能 数据概述: 该数据集包含大量的句子及其对应的嵌入向量表示,记录了文本数据通过特定算法生成的向量特征。主要特征如下:...
    packageimg