找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 印度COVID-19推文情感数据集

    2025年4月15日   

    印度COVID-19推文情感数据集 数据来源:互联网公开数据 标签:COVID-19,印度,推文,情感分析,公共健康,社会反应,数据分析 数据概述:...
    packageimg
  • 共情对话模型基准数据集

    2025年4月15日   

    共情对话模型基准数据集 数据来源:互联网公开数据 标签:对话系统,共情,聊天机器人,虚拟助手,对话模型,情感分析,机器学习 数据概述:...
    packageimg
  • 时空幻境-新美妙世界角色台词片段数据集-CocoAtarashii

    2025年4月15日   

    时空幻境-新美妙世界角色台词片段数据集-CocoAtarashii 数据来源:互联网公开数据 标签:游戏,台词,角色,剧情,新美妙世界,TWEWY,Coco Atarashii,对话,片段 数据概述: 本数据集精选了来自游戏《时空幻境:新美妙世界》(TWEWY:NEO)中角色Coco Atarashii的部分台词片段及其上下文信息。...
    packageimg
  • Gemma7B重写新闻数据集

    2025年4月15日   

    Gemma7B重写新闻数据集 数据来源:互联网公开数据 标签:新闻重写,自然语言处理,文本生成,机器学习,数据集,文本分析 数据概述: 本数据集包含使用Gemma 7B模型重写的新闻文章集合。数据集涵盖了广泛的主题和来源,提供了原始新闻内容及其对应的Gemma...
    packageimg
  • Allociné法国电影评论情感分析数据集

    2025年4月15日   

    Allociné法国电影评论情感分析数据集 数据来源:互联网公开数据 标签:情感分析, 法语, 电影评论, 文本数据, 机器学习, 自然语言处理 数据概述: 本数据集源自Allociné电影评论,用于法国电影评论的情感分析研究。数据集由Theophile Blard创建并收集,包含约20万条电影评论,其中训练集约占80%,验证集和测试集各占10%。...
    packageimg
  • Inshorts新闻摘要与推荐系统构建数据集-时间不限

    2025年4月15日   

    Inshorts新闻摘要与推荐系统构建数据集-时间不限 数据来源:互联网公开数据 标签:新闻摘要,推荐系统,文本分析,自然语言处理,新闻数据,网络抓取,内容推荐 数据概述: 本数据集是通过网络爬虫从新闻网站Inshorts上抓取的新闻数据。Inshorts以提供短摘要新闻而闻名,本数据集包含了网站上发布的新闻摘要及相关信息。 数据包含以下四个字段:...
    packageimg
  • 标有GCPNLP情绪标签的股票市场推文数据集

    2025年4月15日   

    标有GCPNLP情绪标签的股票市场推文数据集 数据来源:互联网公开数据 标签:股票市场,推文,情绪分析,GCP,NLP,金融分析,数据科学,人工智能 数据概述: 本数据集包含2020年4月9日至7月16日期间与股票市场相关的推文,数据来源于现有数据集“Stock Market TWEETS Data-...
    packageimg
  • 抑郁症数据集包含额外特征及抑郁症等级

    2025年4月15日   

    抑郁症数据集包含额外特征及抑郁症等级 数据来源:互联网公开数据 标签:抑郁症,情绪分析,TF-IDF,自杀监测,机器学习,情感分类,额外特征 数据概述: 本数据集基于Kaggle上的“depression-reddit-cleaned”数据集(感谢infamous coder的数据清理和开放共享)进行了TF-...
    packageimg
  • Shahid视频流媒体应用安卓用户评论与评分数据集

    2025年4月15日   

    Shahid视频流媒体应用安卓用户评论与评分数据集 数据来源:互联网公开数据 标签:Shahid, 视频流媒体, 安卓应用, 用户评论, 评分, 内容消费, 娱乐, 移动应用, 市场分析 数据概述:...
    packageimg
  • 公开演讲平台TEDTalks视频元数据集

    2025年4月15日   

    公开演讲平台TEDTalks视频元数据集 数据来源:互联网公开数据 标签:TED, 演讲, 信息传播, 数据分析, 文化教育, 数据可视化 数据概述:...
    packageimg
  • CNBC印度新闻头条数据集

    2025年4月15日   

    CNBC印度新闻头条数据集 数据来源:互联网公开数据 标签:新闻头条, CNBC印度, 话题建模, 自然语言处理, 时间序列, 媒体分析 数据概述:...
    packageimg
  • Reddit占星学讨论社区帖子与评论数据集

    2025年4月15日   

    Reddit占星学讨论社区帖子与评论数据集 数据来源:互联网公开数据 标签:占星学,Reddit,社交媒体,文本分析,情感分析,主题挖掘,社区,讨论,帖子,评论 数据概述: 本数据集收录了来自Reddit占星学(r/Astrology)子版块的帖子和评论数据,数据未经过滤。 数据通过Python Reddit API...
    packageimg
  • 罗马尼亚鸟类录音数据集

    2025年4月15日   

    罗马尼亚鸟类录音数据集 数据来源:互联网公开数据 标签:罗马尼亚,鸟类,录音,自然生态,物种分布,迁移模式,环境污染,数据分析 数据概述: 本数据集包含从罗马尼亚录制的鸟类录音信息,涵盖了不同地区和时间段的鸟类录音数据。数据集旨在为鸟类研究、生态评估提供支持。录音内容由Xeno-Canto网站的众多贡献者提供,确保了数据的多样性和可靠性。...
    packageimg
  • Kubernetes集群管理kubectl命令详解数据集

    2025年4月15日   

    Kubernetes集群管理kubectl命令详解数据集 数据来源:互联网公开数据 标签:Kubernetes, kubectl, 容器编排, 命令行工具, 容器管理, 云原生, DevOps, 运维, 指令, 描述 数据概述: 本数据集由ComponentSoft在Hugging...
    packageimg
  • 印度互联网仇恨言论识别数据集2023

    2025年4月15日   

    印度互联网仇恨言论识别数据集2023 数据来源:互联网公开数据 标签:仇恨言论,内容审核,文本分析,社交媒体,自然语言处理,人工智能,互联网治理 数据概述: 本数据集用于识别文本输入中是否包含仇恨言论,涵盖了大量的互联网文本样本。数据集旨在为开发和评估仇恨言论检测模型提供训练数据基础,支持对不恰当和有害在线内容进行有效管理。 数据用途概述:...
    packageimg
  • 多人在线角色扮演游戏神谕之战Dofus游戏物品及阿尔玛纳克数据集合

    2025年4月15日   

    多人在线角色扮演游戏神谕之战Dofus游戏物品及阿尔玛纳克数据集合 数据来源:互联网公开数据 标签:Dofus, 神谕之战, 游戏数据, 物品, 阿尔玛纳克, 游戏分析, 自然语言处理, 数据挖掘, 游戏攻略 数据概述:...
    packageimg
  • ODS-NLP多分类文本电影评分数据集2024

    2025年4月15日   

    ODS-NLP多分类文本电影评分数据集2024 数据来源:互联网公开数据 标签:文本分类,多分类,电影评分,评分预测,NLP,机器学习,基线模型,对数回归,CatBoost,LSTM,Transformer 数据概述: 本数据集来自ODS(Open Data...
    packageimg
  • 土耳其真假评论数据集

    2025年4月15日   

    土耳其真假评论数据集 数据来源:互联网公开数据 标签:土耳其,评论分析,假新闻,深度学习,文本生成,自然语言处理,机器学习,数据标注 数据概述:...
    packageimg
  • 旁遮普语沙木基语料库词频统计数据集

    2025年4月15日   

    旁遮普语沙木基语料库词频统计数据集 数据来源:互联网公开数据 标签:旁遮普语,沙木基语,语言学,词频统计,文本分析,自然语言处理,语料库 数据概述: 本数据集基于从互联网收集的旁遮普语沙木基语料库构建而成,包含单字词(unigram)和双字词(bigram)的频率统计信息。 数据文件包括: unigram-p.csv:包含50,000个单字词及其词频。...
    packageimg
  • 穆斯克药物分子-版本1数据集

    2025年4月15日   

    穆斯克药物分子-版本1数据集 数据来源:互联网公开数据 标签:药物分子,目标蛋白,绑定预测,机器学习,多实例学习,积极分子,消极分子 数据概述: 穆斯克药物分子-...
    packageimg