找到11,679个数据集

标签: 自然语言处理

过滤结果
  • 英国广播公司BBC新闻文章文本分类数据集

    2025年4月15日   

    英国广播公司BBC新闻文章文本分类数据集 数据来源:互联网公开数据 标签:新闻文章,文本分类,自然语言处理,机器学习,BBC,媒体,文本数据,分类任务 数据概述:...
    packageimg
  • 抓取的职位描述数据集

    2025年4月15日   

    抓取的职位描述数据集 数据来源:互联网公开数据 标签:职位描述,抓取,自然语言处理,研究,数据集,就业市场,招聘分析 数据概述: 本数据集包含4413条职位描述,来源于单一网络平台抓取的数据。这些职位描述可能已不再有效,因此数据集主要用于自然语言处理(NLP)实践和研究项目。 数据用途概述:...
    packageimg
  • StackOverflowPython3-0常见问题及解答数据集

    2025年4月15日   

    StackOverflowPython3-0常见问题及解答数据集 数据来源:互联网公开数据 标签:Stack Overflow, Python 3.0, 编程问答, 自然语言处理, 常见问题, 代码, 技术支持, 问答系统 数据概述: 本数据集收录了Stack Overflow上关于Python...
    packageimg
  • 宇宙新闻数据集2024年5月

    2025年4月15日   

    宇宙新闻数据集2024年5月 数据来源:互联网公开数据 标签:宇宙新闻,太空行业,商业,民用,发射,军事,意见文章,自然语言处理,语言模型 数据概述:...
    packageimg
  • 图书馆书籍详细信息数据集

    2025年4月15日   

    图书馆书籍详细信息数据集 数据来源:互联网公开数据 标签:书籍信息,ISBN,书名,作者,出版日期,出版商,语言,分类,适读年龄,自然语言处理,推荐系统,市场研究 数据概述:...
    packageimg
  • Gemma7B重写新闻数据集

    2025年4月15日   

    Gemma7B重写新闻数据集 数据来源:互联网公开数据 标签:新闻重写,自然语言处理,文本生成,机器学习,数据集,文本分析 数据概述: 本数据集包含使用Gemma 7B模型重写的新闻文章集合。数据集涵盖了广泛的主题和来源,提供了原始新闻内容及其对应的Gemma...
    packageimg
  • Allociné法国电影评论情感分析数据集

    2025年4月15日   

    Allociné法国电影评论情感分析数据集 数据来源:互联网公开数据 标签:情感分析, 法语, 电影评论, 文本数据, 机器学习, 自然语言处理 数据概述: 本数据集源自Allociné电影评论,用于法国电影评论的情感分析研究。数据集由Theophile Blard创建并收集,包含约20万条电影评论,其中训练集约占80%,验证集和测试集各占10%。...
    packageimg
  • Inshorts新闻摘要与推荐系统构建数据集-时间不限

    2025年4月15日   

    Inshorts新闻摘要与推荐系统构建数据集-时间不限 数据来源:互联网公开数据 标签:新闻摘要,推荐系统,文本分析,自然语言处理,新闻数据,网络抓取,内容推荐 数据概述: 本数据集是通过网络爬虫从新闻网站Inshorts上抓取的新闻数据。Inshorts以提供短摘要新闻而闻名,本数据集包含了网站上发布的新闻摘要及相关信息。 数据包含以下四个字段:...
    packageimg
  • 对话机器人训练对话提示与响应数据集2023

    2025年4月15日   

    对话机器人训练对话提示与响应数据集2023 数据来源:互联网公开数据 标签:对话机器人,训练数据,对话提示,对话响应,自然语言处理,对话系统,人工智能 数据概述: 本数据集包含用于训练对话机器人的对话提示与响应数据,数据涵盖广泛的主题,包括日常对话、推荐、兴趣爱好、哲学思想等。数据集利用Gemini技术生成,适用于构建和优化对话机器人系统。...
    packageimg
  • CNBC印度新闻头条数据集

    2025年4月15日   

    CNBC印度新闻头条数据集 数据来源:互联网公开数据 标签:新闻头条, CNBC印度, 话题建模, 自然语言处理, 时间序列, 媒体分析 数据概述:...
    packageimg
  • 印度互联网仇恨言论识别数据集2023

    2025年4月15日   

    印度互联网仇恨言论识别数据集2023 数据来源:互联网公开数据 标签:仇恨言论,内容审核,文本分析,社交媒体,自然语言处理,人工智能,互联网治理 数据概述: 本数据集用于识别文本输入中是否包含仇恨言论,涵盖了大量的互联网文本样本。数据集旨在为开发和评估仇恨言论检测模型提供训练数据基础,支持对不恰当和有害在线内容进行有效管理。 数据用途概述:...
    packageimg
  • 多人在线角色扮演游戏神谕之战Dofus游戏物品及阿尔玛纳克数据集合

    2025年4月15日   

    多人在线角色扮演游戏神谕之战Dofus游戏物品及阿尔玛纳克数据集合 数据来源:互联网公开数据 标签:Dofus, 神谕之战, 游戏数据, 物品, 阿尔玛纳克, 游戏分析, 自然语言处理, 数据挖掘, 游戏攻略 数据概述:...
    packageimg
  • 土耳其真假评论数据集

    2025年4月15日   

    土耳其真假评论数据集 数据来源:互联网公开数据 标签:土耳其,评论分析,假新闻,深度学习,文本生成,自然语言处理,机器学习,数据标注 数据概述:...
    packageimg
  • 旁遮普语沙木基语料库词频统计数据集

    2025年4月15日   

    旁遮普语沙木基语料库词频统计数据集 数据来源:互联网公开数据 标签:旁遮普语,沙木基语,语言学,词频统计,文本分析,自然语言处理,语料库 数据概述: 本数据集基于从互联网收集的旁遮普语沙木基语料库构建而成,包含单字词(unigram)和双字词(bigram)的频率统计信息。 数据文件包括: unigram-p.csv:包含50,000个单字词及其词频。...
    packageimg
  • 常见鸟类名称数据集

    2025年4月15日   

    常见鸟类名称数据集 数据来源:互联网公开数据 标签:鸟类名称,文本生成,RNN,LSTM,深度学习,自然语言处理,项目数据集 数据概述: 本数据集包含10976个常见鸟类名称,来源于维基百科的常见鸟类名称列表。数据集以CSV格式提供,包含两列信息:ID(整数类型),为每个鸟类名称分配的唯一标识;Common Bird...
    packageimg
  • 数据20新闻组文本分类研究数据集2023

    2025年4月15日   

    数据20新闻组文本分类研究数据集2023 数据来源:互联网公开数据 标签:文本分类,自然语言处理,20新闻组,数据清洗,机器学习,情感分析,主题建模 数据概述: 本数据集是基于scikit-...
    packageimg
  • 阿拉伯诗歌诗句与解释数据集

    2025年4月15日   

    阿拉伯诗歌诗句与解释数据集 数据来源:互联网公开数据 标签:阿拉伯诗歌,诗句,解释,AI,自然语言处理,诗歌分析,文学研究,文化研究 数据概述:...
    packageimg
  • 全面生物医学实体识别数据集

    2025年4月15日   

    全面生物医学实体识别数据集 数据来源:互联网公开数据 标签:生物医学,实体识别,自然语言处理,机器学习,药物描述,专利摘要,文本分析 数据概述:...
    packageimg
  • Phoronix科技新闻文章标题与内容数据集

    2025年4月15日   

    Phoronix科技新闻文章标题与内容数据集 数据来源:互联网公开数据 标签:科技新闻,NLP,文本分析,自然语言处理,新闻文章,Phoronix,文章标题,文本数据,数据挖掘 数据概述:...
    packageimg
  • 英国广播公司BBC新闻文章文本数据集

    2025年4月15日   

    英国广播公司BBC新闻文章文本数据集 数据来源:互联网公开数据 标签:新闻文章,文本数据,BBC,媒体,内容分析,自然语言处理,文本挖掘,英国 数据概述: 本数据集包含英国广播公司(BBC)发布的新闻文章文本内容。数据以CSV格式存储,原始数据为TXT格式。数据集涵盖了BBC新闻文章的标题、正文以及可能包含的发布日期、所属类别等元数据。 数据用途概述:...
    packageimg