找到819个数据集

标签: 信息检索

过滤结果
  • 学术论文标题与作者信息数据集

    2026年2月21日 30 201 10

    学术论文标题与作者信息数据集_Academic_Paper_Title_and_Author_Information_Dataset 数据来源:互联网公开数据 标签:学术论文, 标题, 作者, 信息检索, 自然语言处理, 文本分析, 数据挖掘, 学术研究 数据概述:...
    packageimg
  • Wikidata数据转储_RDF数据

    2026年2月15日 30 122 92

    数据集概述 本数据集是通过wdumps工具生成的Wikidata的RDF格式转储数据,包含实体、陈述和三元组信息,共4个文件,涵盖JSON、GZ压缩包、NT格式等类型,可用于Wikidata相关的知识图谱研究与应用。 文件详解 info.json 文件格式:JSON...
    packageimg
  • SWT_bug定位研究数据集

    2026年2月12日 30 160 63

    数据集概述 本数据集包含SWT项目的bug定位研究相关数据,旨在解决bug报告与源代码文件之间的词汇不匹配问题。数据集结合了深度神经网络(DNN)和信息检索技术(rVSM),通过分析bug报告与源代码文件的文本相似性,以及学习术语关联,提高bug定位准确性。数据集包含两个文件,分别为XML和XLSX格式。 文件详解 SWT.xml 文件格式:XML...
    packageimg
  • JDT_Based_bug定位研究数据集

    2026年2月9日 30 127 82

    数据集概述 本数据集包含JDT项目的bug定位相关数据,由两个文件组成,分别为包含bug基础信息的电子表格和包含详细提交信息的XML文件。数据记录了bug报告与代码提交的关联信息,支持bug定位研究中对文本匹配与代码关联的分析。 文件详解 JDT.xlsx 文件格式:XLSX...
    packageimg
  • Search_Strategy_文档数据

    2026年2月9日 30 146 133

    数据集概述 本数据集包含一份关于搜索策略的文档,核心内容围绕搜索策略的相关信息展开,旨在为用户提供结构化的搜索策略参考资料。数据集仅包含一个文件,无额外子目录或数据拆分结构。 文件详解 文件名称:search strategy.docx 文件格式:DOCX...
    packageimg
  • BIRCO_Based_LLM系统评估用精选信息检索数据集

    2026年1月30日 30 10 2

    数据集概述 本数据集是经过精心整理的现有信息检索数据集集合,适用于基于大型语言模型(LLM)的系统评估。包含DORIS-MAE、ArguAna、WhatThatBook、Clinical-Trial和RELIC五个子数据集,每个子数据集均包含查询文本、语料库文本及查询相关性评分,支持LLM系统的检索性能评估。 文件详解...
    packageimg
  • PEQQS_Based_科学文献数量型问答检索全流程评估数据集

    2026年2月9日 30 107 4

    数据集概述 本数据集聚焦科学文献中的数量型抽取式问答场景,包含1031篇农业科学摘要的数量答案标注,以及基于39个查询的1130条查询-文档相关性判断。数据集支持信息检索与问答模块的端到端评估,可用于研究检索质量对下游问答结果的影响,尤其是大语言模型处理无关文档时的幻觉问题。 文件详解 quantities_ground_truth.json...
    packageimg
  • Wikidata_Dump_Based知识图谱RDF导出数据

    2026年2月8日 30 112 3

    数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF导出数据,包含实体、声明、三元组等结构化信息,共4个文件,涵盖JSON、NT、GZ等格式,支持对Wikidata数据的解析与应用。 文件详解 info.json 文件格式:JSON...
    packageimg
  • Birt_HyLoc_Based_错误定位模型评估数据集

    2026年2月7日 30 14 8

    数据集概述 本数据集为错误定位模型HyLoc的评估数据,包含Birt项目相关文件。HyLoc结合深度神经网络(DNN)与信息检索技术rVSM,解决错误报告与源码间的词汇不匹配问题,提升错误定位准确率。数据集含两个文件,用于验证模型在实际项目中的性能表现。 文件详解 Birt.xlsx 文件格式:XLSX...
    packageimg
  • GPT_4_Turbo_沙特法律文件翻译数据

    2026年2月1日 30 128 77

    数据集概述 本数据集包含由GPT-4 Turbo翻译的14份沙特阿拉伯法律文件,均为Excel格式。涵盖基础治理法、司法法、诉讼程序法、专利法等多个法律领域,无目录结构,文件直接存储,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称与格式:14个文件均为.xlsx格式,包括《Basic Law of...
    packageimg
  • MODIS_Based_软件需求追踪实验数据集

    2026年2月1日 30 174 164

    数据集概述 本数据集基于NASA MODIS文档修改而来,包含19条高级需求和49条低级需求,以及人工验证的需求追踪答案集(含41条正确链接)。数据用于软件需求追踪实验,支持信息检索方法(如TF-IDF、LSI)的性能评估,包含需求文本文件、答案集及实验结果表格。 文件详解 需求文件 文件夹名称:high、low(以ZIP格式存储) 文件格式:TXT...
    packageimg
  • Tomcat_Based软件开发bug报告数据集

    2026年1月31日 30 204 43

    数据集概述 本数据集由An Ngoc Lam捐赠,包含Tomcat项目的bug报告相关数据,共2个文件。数据记录了bug的基本信息、关联提交及文件变更详情,可用于支持bug定位相关的研究与分析,帮助解决bug报告与源代码间的词汇不匹配问题。 文件详解 文件名称:Tomcat.xlsx 文件格式:XLSX...
    packageimg
  • Bangla_Based_孟加拉语信息检索测试集数据

    2026年1月31日 30 119 56

    数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
    packageimg
  • Wikidata_Based_食品与配料RDF转储数据

    2026年1月31日 30 127 76

    数据集概述 本数据集是通过wdumps工具生成的Wikidata食品与配料主题RDF转储数据,包含信息说明、转储配置、RDF数据压缩包及预览文件四类文件,用于提供结构化的食品与配料关联数据。 文件详解 信息说明文件 文件名称:info.json 文件格式:JSON...
    packageimg
  • RLKWiC_Based_真实知识工作上下文监测数据集

    2026年1月31日 30 201 14

    数据集概述 本数据集为RLKWiC,是首个公开的真实知识工作上下文数据集,通过监测八名参与者两个月的计算机交互生成,包含上下文、文本内容、语义等多维度信息,旨在填补个人信息管理领域的研究空白,为用户行为建模提供支撑。 文件详解 RLKWiC.zip 文件格式:ZIP...
    packageimg
  • Touché23_Task2_因果问题证据检索任务数据

    2026年1月31日 30 150 117

    数据集概述 本数据集为Touché 2023会议因果问题证据检索任务的专用数据,包含任务所需的主题文件、相关性判断文件及结果压缩包,共5个文件,无目录层级划分,可直接用于该任务的模型训练、评估与结果复现。 文件详解 文件名称:runs-task2.zip 文件格式:ZIP 字段映射介绍:任务相关的运行结果压缩包,具体内容需解压后查看...
    packageimg
  • Wikidata_Based_所有食品条目RDF转储数据

    2026年1月30日 30 172 7

    数据集概述 本数据集是通过wdumps工具生成的Wikidata食品条目RDF转储数据,包含所有食品相关条目信息。数据以多种文件格式存储,涵盖条目元数据、规范配置、预览数据及压缩数据文件,总计四个文件,可用于食品领域信息检索与分析。 文件详解 info.json 文件格式:JSON...
    packageimg
  • INNOSETA_Source_行业解决方案数据库2020

    2026年1月30日 30 33 3

    数据集概述 本数据集为INNOSETA数据库中的行业解决方案数据,包含一个Excel文件,记录相关行业解决方案的信息,可用于行业解决方案的查询与分析。 文件详解 文件名称:D1.7_Database_INDUSTRY_SOLUTIONS_INNOSETA_(2020).xlsx 文件格式:XLSX...
    packageimg
  • BioASQ_Based_生物医学专家真实需求问答基准数据集

    2026年1月29日 30 3 0

    数据集概述 本数据集为BioASQ生物医学问答基准数据集,包含英文问题、标准参考答案及相关材料,反映生物医学专家真实信息需求,兼具挑战性与实用性。数据集融合结构化与非结构化数据,除精确答案外还包含理想答案(摘要形式),适用于问答系统、多文档摘要、信息检索等多任务研究,且随BioASQ挑战赛持续扩展。 文件详解 README文件 文件名称:README...
    packageimg
  • Eclipse_Based_Bug定位HyLoc模型研究数据

    2026年1月29日 30 208 205

    数据集概述 本数据集为Eclipse Platform UI项目的Bug定位研究数据,包含论文中提出的HyLoc模型(结合深度神经网络与rVSM信息检索技术)相关的实验数据与元数据,用于解决Bug报告与源代码间的词汇不匹配问题,提升Bug定位准确率。 文件详解 Eclipse_Platform_UI.xlsx 文件格式:XLSX...
    packageimg