找到11,981个数据集

标签: 自然语言处理

过滤结果
  • 多样化文本数据集丰富的内容资源

    2025年4月22日   

    标题:多样化文本数据集丰富的内容资源 数据内容: 该数据集包含多样化的文本信息,具体字段包括: 1. FileName:表示文件的名称,包含20000种不同的文件名,展示了数据集的广泛覆盖范围。 2. Font:表示文本使用的字体类型,共有20种不同的字体,反映了不同字体的使用情况。 3....
    packageimg
  • 多样化信息分类数据集

    2025年4月22日   

    标题:多样化信息分类数据集 数据内容:该数据集包含两个主要字段:Category和Message。Category字段有3种不同的值,表示不同的类别;Message字段有5158种不同的值,表示具体的信息内容。数据集中的信息涵盖了多种类型和主题,能够为多种分析和研究提供支持。 数据来源:互联网公开数据...
    packageimg
  • 俄罗斯文学作品文本数据集

    2025年4月22日   

    俄罗斯文学作品文本数据集 数据来源:互联网公开数据 标签:文学作品,俄罗斯文学,自然语言处理,文本分类,作者识别,机器学习,不平衡数据,文本分析 数据概述:...
    packageimg
  • 伊朗新闻评论情感分析数据集-Banamenevisan-ir-2023-mohammadbidkhori2003

    2025年4月22日   

    伊朗新闻评论情感分析数据集-Banamenevisan-ir-2023-mohammadbidkhori2003 数据来源:互联网公开数据 标签:情感分析,自然语言处理,波斯语,伊朗,新闻评论,文本分类,机器学习,深度学习 数据概述:...
    packageimg
  • 车辆保险客户反馈情感分析数据集-2023-stevemartin0

    2025年4月22日   

    车辆保险客户反馈情感分析数据集-2023-stevemartin0 数据来源:互联网公开数据 标签:车辆保险,客户反馈,情感分析,文本分类,NLP,自然语言处理,意见挖掘,客户服务,保险理赔,政策条款 数据概述:...
    packageimg
  • 文本分类问答数据集-2011年至2021年-thedevastator

    2025年4月22日   

    文本分类问答数据集-2011年至2021年-thedevastator 数据来源:互联网公开数据 标签:文本分类,问答系统,自然语言处理,机器学习,数据集,教育,研究 数据概述:...
    packageimg
  • 孟加拉语虚假评论检测数据集BFRD-食品评论-2024-shawontanvir

    2025年4月22日   

    孟加拉语虚假评论检测数据集BFRD-食品评论-2024-shawontanvir 数据来源:互联网公开数据 标签:虚假评论检测,孟加拉语,情感分析,自然语言处理,机器学习,文本分类,社交媒体,评论数据 数据概述:...
    packageimg
  • 大型语言模型训练数据文法修正数据集-syoh0708

    2025年4月22日   

    大型语言模型训练数据文法修正数据集-syoh0708 数据来源:互联网公开数据 标签:大型语言模型,文本数据,文法修正,自然语言处理,语言模型训练,文本处理 数据概述: 本数据集包含了两个经过文法修正的大型语言模型(LLM)训练数据集。 数据集一源自Kaggle上的“DAIGT Proper Train...
    packageimg
  • Medium知名期刊2020年1月至8月文章数据集-shiyu22chen

    2025年4月22日   

    Medium知名期刊2020年1月至8月文章数据集-shiyu22chen 数据来源:互联网公开数据 标签:Medium,文章数据,阅读时间,点赞数,评论数,数据科学,机器学习,自然语言处理 数据概述: 本数据集包含了2020年1月至8月期间在Medium上知名期刊发布的文章详情。所选取的期刊包括:The...
    packageimg
  • 高质量推特文本数据集-2023-mskorski

    2025年4月22日   

    高质量推特文本数据集-2023-mskorski 数据来源:互联网公开数据 标签:推特,社交媒体,文本数据,机器学习,主题提取,数据集,自然语言处理 数据概述: 本数据集包含6000条高质量的原始推特文本,这些推特最初由Khuyen...
    packageimg
  • 伊朗电影数据集-2021年-mohammad26845

    2025年4月22日   

    伊朗电影数据集-2021年-mohammad26845 数据来源:互联网公开数据 标签:伊朗电影,波斯语,机器学习,情感分析,自然语言处理,数据集 数据概述:...
    packageimg
  • 印度农民咨询电话问答数据集-daskoushik

    2025年4月22日   

    印度农民咨询电话问答数据集-daskoushik 数据来源:互联网公开数据 标签:农业,农民,问答系统,自然语言处理,Kisan Call Centre,数据清洗,QA,印度 数据概述: 本数据集包含印度农民通过Kisan Call...
    packageimg
  • 抑郁症文本分析TF-IDF标准化数据集2021-alexyarbor

    2025年4月22日   

    抑郁症文本分析TF-IDF标准化数据集2021-alexyarbor 数据来源:互联网公开数据 标签:抑郁症,文本分析,TF-IDF,标准化,Reddit数据,心理健康,机器学习,自然语言处理 数据概述: 本数据集包含经过标准化处理的TF-IDF(词频-逆文档频率)特征矩阵,源自Kaggle上的抑郁症Reddit文本数据集。原始数据集由infamous...
    packageimg
  • 斯洛伐克虚假新闻检测数据集-2023年-matejkore

    2025年4月22日   

    斯洛伐克虚假新闻检测数据集-2023年-matejkore 数据来源:互联网公开数据 标签:虚假新闻,斯洛伐克,文本分类,数据集,教育,研究,机器学习,自然语言处理 数据概述:...
    packageimg
  • 社交媒体虚假新闻内容识别数据集-abhayku2002

    2025年4月22日   

    社交媒体虚假新闻内容识别数据集-abhayku2002 数据来源:互联网公开数据 标签:虚假新闻,社交媒体,谣言,信息甄别,文本分析,自然语言处理,机器学习,舆情分析 数据概述:...
    packageimg
  • 维基百科电影剧情描述去名数据集-abbrivia

    2025年4月22日   

    维基百科电影剧情描述去名数据集-abbrivia 数据来源:互联网公开数据 标签:电影,剧情,自然语言处理,主题建模,停用词,名字识别,维基百科 数据概述: 本数据集包含从维基百科抓取的35,000部电影的剧情描述,并移除了其中的所有名字。数据集通过内置的命名实体识别(NER)技术生成,并经过hunspell...
    packageimg
  • 索马里语文本语料库-清洗后句子数据集-hassen7

    2025年4月22日   

    索马里语文本语料库-清洗后句子数据集-hassen7 数据来源:互联网公开数据 标签:索马里语,语言学,文本数据,自然语言处理,句子,清洗,语料库 数据概述:...
    packageimg
  • 教育类聊天机器人意图识别数据集-leewanhung

    2025年4月22日   

    教育类聊天机器人意图识别数据集-leewanhung 数据来源:互联网公开数据 标签:聊天机器人,意图识别,教育,自然语言处理,对话系统,机器学习,文本数据 数据概述: 本数据集旨在支持教育领域聊天机器人的构建,包含多种意图,以适应广泛的对话场景。 数据集包括核心意图和组合意图,旨在增强聊天机器人的交互能力。 核心意图:...
    packageimg
  • 数据2020至2023年英超转会新闻文章数据集-crxxom

    2025年4月22日   

    2020至2023年英超转会新闻文章数据集-crxxom 数据来源:互联网公开数据 标签:足球,转会市场,新闻,英超,自然语言处理,NLP,90min.com,体育新闻 数据概述:...
    packageimg
  • 新闻真伪辨别文本分类数据集-neupane9sujal

    2025年4月22日   

    新闻真伪辨别文本分类数据集-neupane9sujal 数据来源:互联网公开数据 标签:新闻,真伪,假新闻,文本分类,自然语言处理,机器学习,标题,文本,标签 数据概述: 本数据集包含新闻文章的标题、正文以及真伪标签,可用于进行假新闻检测任务。数据集旨在帮助初学者学习文本分类技术,了解如何利用机器学习模型识别新闻的真伪。 数据包含以下字段:...
    packageimg