找到3,840个数据集

标签: 文本分类

过滤结果
  • 新闻真伪识别数据集-文本内容与标签-训练与测试集

    2025年4月20日   

    新闻真伪识别数据集-文本内容与标签-训练与测试集 数据来源:互联网公开数据 标签:假新闻检测,文本分类,自然语言处理,机器学习,新闻,真伪,文本分析 数据概述: 本数据集旨在支持假新闻检测的研究与开发,包含用于训练、测试模型的数据。数据集由三个CSV文件构成: 1....
    packageimg
  • Jigsaw毒性评论多语言分类数据集

    2025年4月20日   

    Jigsaw毒性评论多语言分类数据集 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 自然语言处理, 多语言, 评论, 社交媒体, 文本分析, 机器学习 数据概述: 本数据集由Pavel Ostyakov创建,旨在支持多语言环境下的毒性评论分类任务。 数据集包含了多种语言的文本评论,并标注了毒性标签。...
    packageimg
  • 股票市场推文情感数据集

    2025年4月20日   

    股票市场推文情感数据集 数据来源:互联网公开数据 标签:股票市场,情感分析,自然语言处理,推文数据,投资决策,金融分析,文本分类 数据概述:...
    packageimg
  • 五十位维多利亚时代小说家的作者归属数据集

    2025年4月20日   

    五十位维多利亚时代小说家的作者归属数据集 数据来源:互联网公开数据 标签:小说,文学分析,作者归属,文本挖掘,维多利亚时代,自然语言处理,文学研究,文本分类 数据概述:...
    packageimg
  • 酒店评论情感分析数据集

    2025年4月20日   

    酒店评论情感分析数据集 数据来源:互联网公开数据 标签:酒店评论,情感分析,文本分类,机器学习,自然语言处理,情感极性,TF-IDF,词向量,深度学习 数据概述:...
    packageimg
  • Jigsaw毒性评论标注数据集-评论毒性评估与分析

    2025年4月20日   

    Jigsaw毒性评论标注数据集-评论毒性评估与分析 数据来源:互联网公开数据 标签:毒性评论,自然语言处理,文本分类,情感分析,仇恨言论,冒犯性语言,标注数据,社交媒体,机器学习 数据概述:...
    packageimg
  • 阿拉伯语增强型开放海豚数据集-用于自动化作文评分-多语言应用

    2025年4月20日   

    阿拉伯语增强型开放海豚数据集-用于自动化作文评分-多语言应用 数据来源:互联网公开数据 标签:阿拉伯语,作文评分,自然语言处理,机器学习,数据集,文本分类,多语言,Open Orca, GPT-3.5, GPT-4, RAG, 翻译 数据概述:...
    packageimg
  • 检测LLM生成文本数据集

    2025年4月20日   

    检测LLM生成文本数据集 数据来源:互联网公开数据 标签:LLM,生成文本检测,文本分类,自然语言处理,数据集合并,文本生成评估 数据概述: 本数据集是一个整合了多个数据集的综合集合,主要用于“LLM - Detect AI Generated...
    packageimg
  • 标准对话日志数据集

    2025年4月19日   

    标准对话日志数据集 数据来源:互联网公开数据 标签:对话日志,自然语言处理,机器学习,聊天机器人,情感分析,文本分类,对话分析,OpenAI 数据概述:...
    packageimg
  • 多语言情感分析数据集

    2025年4月19日   

    多语言情感分析数据集 数据来源:互联网公开数据 标签:情感分析,自然语言处理,多语言模型,文本分类,LLM生成,数据清洗 数据概述:...
    packageimg
  • 推特社交媒体海量推文情感分析数据集-两年期

    2025年4月19日   

    推特社交媒体海量推文情感分析数据集-两年期 数据来源:互联网公开数据 标签:推特,社交媒体,情感分析,自然语言处理,文本分析,用户生成内容,机器学习,文本分类,时间序列分析,用户行为 数据概述:...
    packageimg
  • 印尼新闻标题数据集

    2025年4月19日   

    印尼新闻标题数据集 数据来源:互联网公开数据 标签:印尼,新闻标题,clickbait,自然语言处理,文本分类,新闻媒体,数据标注 数据概述: 本数据集由 CLICK-ID 数据集组成,主要包含来自 12 家印尼本地新闻网站(如 detikNews、Fimela、Kapanlagi 等)的新闻标题数据。数据集分为两部分:(1) 46,119...
    packageimg
  • GitHub问题分类预测数据集

    2025年4月19日   

    GitHub问题分类预测数据集 数据来源:互联网公开数据 标签:GitHub, bug预测, 特性提取, 文本分类, NLP, 机器学习, 预训练模型 数据概述:...
    packageimg
  • 航空公司客户口碑评论数据集

    2025年4月19日   

    航空公司客户口碑评论数据集 数据来源:互联网公开数据 标签:航空公司,客户口碑,文本分类,评论分析,用户体验,消费者行为,情感分析 数据概述:...
    packageimg
  • 新闻真伪鉴别-印度新闻文章数据集2023-2024

    2025年4月19日   

    新闻真伪鉴别-印度新闻文章数据集2023-2024 数据来源:互联网公开数据 标签:假新闻,真新闻,新闻分析,文本分类,自然语言处理,印度,新闻报道,数据挖掘,信息可靠性 数据概述: 本数据集旨在用于新闻真伪鉴别研究,收录了来自印度不同新闻来源的文章。 数据集包含两类文章:一类来自如《印度时报》(Times of...
    packageimg
  • 电影评论情感预测数据集

    2025年4月19日   

    电影评论情感预测数据集 数据来源:互联网公开数据 标签:电影评论,情感分析,文本分类,机器学习,自然语言处理,NLP,数据分析,电影元数据 数据概述:...
    packageimg
  • Jigsaw多语言有毒评论分类预处理数据集

    2025年4月19日   

    Jigsaw多语言有毒评论分类预处理数据集 数据来源:互联网公开数据 标签:自然语言处理,文本分类,有毒评论,多语言,预处理,机器学习,XLM-RoBERTa,Jigsaw 数据概述: 本数据集包含Jigsaw多语言有毒评论分类任务的预处理后的CSV文件。数据使用Hugging Face...
    packageimg
  • 塔斯尼姆新闻数据集

    2025年4月19日   

    塔斯尼姆新闻数据集 数据来源:互联网公开数据 标签:新闻分类,文本分类,媒体分析,自然语言处理,数据爬取 数据概述: 本数据集是从Tasnim新闻网站爬取的公开新闻数据,涵盖了多个类别的新闻内容。数据集旨在提供一个均衡分布的多类别新闻数据集,适用于文本分类任务。 数据用途概述:...
    packageimg
  • 荷兰新闻党派检测数据集

    2025年4月19日   

    荷兰新闻党派检测数据集 数据来源:互联网公开数据 标签:荷兰新闻,党派检测,文本分类,政治倾向,媒体分析 数据概述:...
    packageimg
  • 印度中部库尔德语电影评论情感分析数据集

    2025年4月19日   

    印度中部库尔德语电影评论情感分析数据集 数据来源:互联网公开数据 标签:库尔德语,电影评论,情感分析,自然语言处理,机器学习,文本分类 数据概述:...
    packageimg