找到699个数据集

标签: 信息检索

过滤结果
  • 维基百科页面数据集

    2025年4月17日   

    维基百科页面数据集 数据来源:互联网公开数据 标签:维基百科,文本内容,自然语言处理,嵌入模型,信息检索,知识图谱,数据挖掘 数据概述: 本数据集基于Wikipedia页面内容构建,包含从原始竞赛数据集中提取的问答数据。数据集主要字段包括问题ID、维基百科页面建议、页面内容等。此外,数据集中还包含了通过Sentence-...
    packageimg
  • 全球议题新闻分类数据集

    2025年4月15日   

    全球议题新闻分类数据集 数据来源:互联网公开数据 标签:新闻分类,全球议题,文本分类,多分类问题,不平衡数据,动态更新,机器学习基准数据集 数据概述...
    packageimg
  • 维基百科关于谷歌的页面浏览量统计数据集-2023

    2025年4月15日   

    维基百科关于谷歌的页面浏览量统计数据集-2023 数据来源:互联网公开数据 标签:维基百科,谷歌,页面浏览量,搜索,互联网,信息检索,数据分析,多语言 数据概述:...
    packageimg
  • 印度COVID-19研究文献信息提取三元组数据集

    2025年4月15日   

    印度COVID-19研究文献信息提取三元组数据集 数据来源:互联网公开数据 标签:COVID-19,印度,文献研究,信息提取,三元组,自然语言处理,知识图谱 数据概述: 本数据集是针对COVID-19 Open Research Dataset Challenge...
    packageimg
  • TREC问题分类数据集

    2025年4月15日   

    TREC问题分类数据集 数据来源:互联网公开数据 标签:问题分类,机器学习,自然语言处理,信息检索,数据集,文本分析,学术研究 数据概述:...
    packageimg
  • WikiQA开放域问答数据集-问题与句子对-开放域问答研究

    2025年4月15日   

    WikiQA开放域问答数据集-问题与句子对-开放域问答研究 数据来源:互联网公开数据 标签:问答系统,自然语言处理,文本匹配,信息检索,知识库,开放域问答,WikiQA,机器学习,数据集 数据概述:...
    packageimg
  • 问答匹配数据集

    2025年4月15日   

    问答匹配数据集 数据来源:互联网公开数据 标签:问答匹配,自然语言处理,BERT模型,信息检索,分类系统,准确性评估,相关性评估 数据概述:...
    packageimg
  • 新闻文章摘要数据集

    2025年4月15日   

    新闻文章摘要数据集 数据来源:互联网公开数据 标签:新闻,文章,摘要,标题,超链接,内容,文本分析,自然语言处理 数据概述: 本数据集包含了新闻文章的标题、超链接和正文内容。数据集覆盖了广泛的新闻来源,提供了丰富的文本信息,适用于新闻分析、文本摘要生成和自然语言处理等多种应用场景。 数据用途概述:...
    packageimg
  • YALICKJ维基百科带上下文数据集

    2025年4月15日   

    YALICKJ维基百科带上下文数据集 数据来源:互联网公开数据 标签:维基百科,上下文,数据集,自然语言处理,机器学习,文本分析 数据概述: 本数据集基于YALICKJ在Kaggle上提供的维基百科数据集,并增加了由Chris Notebook生成的上下文列。数据集包含了维基百科页面的文本内容及其对应的上下文信息,适用于自然语言处理和机器学习任务。...
    packageimg
  • BBC缅甸语新闻RSS数据集

    2025年4月15日   

    BBC缅甸语新闻RSS数据集 数据来源:互联网公开数据 标签:BBC,缅甸语,新闻,RSS,短描述,全文句子 数据概述: 本数据集收录了BBC缅甸语新闻的RSS订阅源,包含新闻标题和简短描述。BBC提供的简短描述以完整句子形式呈现,相较于其他缅甸语新闻源更加清晰易读。 数据用途概述:...
    packageimg
  • 安然公司电子邮件数据集-垃圾邮件检测与分析-2000-2002

    2025年4月14日   

    安然公司电子邮件数据集-垃圾邮件检测与分析-2000-2002 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件,安然公司,文本分析,自然语言处理,信息检索,邮件安全,金融,商业丑闻 数据概述:...
    packageimg
  • 问答一致性研究与文本理解数据集

    2025年4月14日   

    问答一致性研究与文本理解数据集 数据来源:互联网公开数据 标签:问答任务,一致性评估,自然语言处理,机器学习,问答系统,文本理解,信息检索 数据概述: 本数据集专注于问答一致性研究,包含训练集和验证集两个部分。每个数据样本由三个关键字段组成: 1. 问题(question):用户提出的具体问题。 2. 答案(answer):对应问题的标准答案。 3....
    packageimg
  • 马拉维公共卫生疾病监测与应对问答数据集2020

    2025年4月14日   

    马拉维公共卫生疾病监测与应对问答数据集2020 数据来源:互联网公开数据 标签:马拉维,公共卫生,疾病监测,问答数据,文本分类,机器学习,信息检索,培训材料 数据概述:...
    packageimg
  • 跨领域多模态问答任务数据集2023

    2025年4月14日   

    跨领域多模态问答任务数据集2023 数据来源:互联网公开数据 标签:问答系统,多模态数据,自然语言处理,机器学习,信息检索,HTML页面,跨领域 数据概述:...
    packageimg
  • 机器学习概率视角主题建模数据集

    2025年4月14日   

    机器学习概率视角主题建模数据集 数据来源:互联网公开数据 标签:机器学习,概率视角,主题建模,内容识别,信息检索,文本聚类,教育资料 数据概述: 本数据集来源于《机器学习:概率视角》一书,收录了书中各个章节的标题及其对应的段落内容。该数据集为研究和应用机器学习技术提供了宝贵的文字资源,涵盖了广泛的机器学习主题。 数据用途概述:...
    packageimg
  • LLM-20问题字典二分查找数据集

    2025年4月14日   

    LLM-20问题字典二分查找数据集 数据来源:互联网公开数据 标签:关键词,二分查找,自然语言处理,机器学习,数据字典,文本分析 数据概述:...
    packageimg
  • 比利时法定条款检索数据集BSARD

    2025年4月14日   

    比利时法定条款检索数据集BSARD 数据来源:互联网公开数据 标签:法律问答,比利时,信息检索,自然语言处理,机器学习,法律研究 数据概述:...
    packageimg
  • 洪水信息检索系统数据集

    2025年4月14日   

    洪水信息检索系统数据集 数据来源:互联网公开数据 标签:洪水,信息检索,机器学习,灾害分析,数据训练测试,二分类模型,网页内容分析 数据概述: 本数据集用于训练和测试一个二分类机器学习模型,旨在开发一个信息检索系统,用于检索包含美国过去洪水事件相关信息的网页。数据集涵盖了与洪水相关的网页内容,为研究和分析洪水现象提供了基础支持。 数据用途概述:...
    packageimg
  • WebMD健康问答平台问题与解答数据集

    2025年4月14日   

    WebMD健康问答平台问题与解答数据集 数据来源:互联网公开数据 标签:健康,医疗,问答,WebMD,医学,文本数据,自然语言处理,信息检索 数据概述:...
    packageimg