-
印度古吉拉特语新闻标题数据集1963-2021
印度古吉拉特语新闻标题数据集1963-2021 数据来源:互联网公开数据 标签:古吉拉特语,新闻标题,文本分类,机器学习,自然语言处理,数据清洗 数据概述: 本数据集包含约6500篇从古吉拉特语新闻网站收集的新闻标题。数据集已经过清洗处理,并分为训练集和测试集,适用于对古吉拉特语文本分类模型的性能进行基准测试。 数据用途概述:... -
英国广播公司BBC新闻文章分类数据集
英国广播公司BBC新闻文章分类数据集 数据来源:互联网公开数据 标签:新闻文章,BBC,文本分类,自然语言处理,新闻聚合,舆情分析,文本挖掘,新闻类别 数据概述:... -
印度板球评论分析数据集1963-2021
印度板球评论分析数据集1963-2021 数据来源:互联网公开数据 标签:板球,评论分析,自然语言处理,文本分类,情感分析,机器学习 数据概述: 本数据集是一个强大的工具,用于理解和分析板球比赛中的评论。数据集包括三个部分:Validation.csv、Train.csv 和... -
IMDB电影剧集情节摘要文本分类数据集
IMDB电影剧集情节摘要文本分类数据集 数据来源:互联网公开数据 标签:IMDB, 电影, 文本分类, 机器学习, 自然语言处理, 类别识别 数据概述: 本数据集包含 1000 条来自 IMDB(Internet Movie Database)的电影/电视剧剧情概要,涵盖 4... -
印度短信垃圾信息检测数据集1963-2021
印度短信垃圾信息检测数据集1963-2021 数据来源:互联网公开数据 标签:短信,垃圾信息检测,文本分类,机器学习,自然语言处理 数据概述:... -
-
-
生成电子邮件垃圾邮件数据集
生成电子邮件垃圾邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,电子邮件,文本分类,机器学习,数据标注,合成数据,网络安全,文本数据,NLP,情感分析 数据概述: 本数据集包含一个CSV文件,该文件包含300条生成的电子邮件垃圾邮件消息。每个文件行代表一封单独的电子邮件,包括其标题和正文。该数据集旨在促进垃圾邮件电子邮件的分析和检测。... -
性别偏见西班牙语数据集
性别偏见西班牙语数据集 数据来源:互联网公开数据 标签:性别偏见,社交媒体分析,西班牙语,文本分类,数据标注,网络偏见,社会研究 数据概述: 本数据集包含超过1900条标注为有偏见或无偏见的西班牙语推文。这些数据是为减少互联网上性别偏见的黑客马拉松活动特别收集和标注的,旨在帮助识别和分析社交媒体中的性别偏见问题。 数据用途概述:... -
机器学习奥林匹克竞赛-葡萄牙语有毒语言检测扩展数据集
机器学习奥林匹克竞赛-葡萄牙语有毒语言检测扩展数据集 数据来源:互联网公开数据 标签:机器学习,自然语言处理,文本分类,有毒语言,葡萄牙语,社交媒体,情感分析,文本清洗 数据概述:... -
电子商务文本分类数据集
电子商务文本分类数据集 数据来源:互联网公开数据 标签:电子商务,文本分类,产品描述,商品类别,电子设备,家居用品,书籍,服装与配饰 数据概述: 本数据集是一个基于电子商务文本的分类数据集,包含四个主要类别:电子设备(Electronics)、家居用品(Household)、书籍(Books) 和 服装与配饰(Clothing &... -
数据1000个故事100个题材数据集
数据1000个故事100个题材数据集 数据来源:互联网公开数据 标签:故事,题材,文本分析,自然语言处理,文本分类,文学研究 数据概述:... -
西班牙语推文情感分析数据集
西班牙语推文情感分析数据集 数据来源:互联网公开数据 标签:情感分析,西班牙语,社交媒体,自然语言处理,文本分类,情感识别 数据概述: 本数据集旨在支持西班牙语情感分析模型的开发,包含西班牙语推文的文本内容及其对应的情感标签。数据集记录了每条推文的发布时间和主题标签,适用于分析西班牙语社交媒体中的情感倾向。 数据用途概述:... -
情感数据集原始版
情感数据集原始版 数据来源:互联网公开数据 标签:情感分析,自然语言处理,NLP,情感检测,文本分类,机器学习,聊天机器人,推荐系统,心理健康 数据概述:... -
洋葱新闻数据集
洋葱新闻数据集 数据来源:互联网公开数据 标签:洋葱新闻,真实新闻,文本分类,机器学习,自然语言处理,数据集,新闻真实性 数据概述: 本数据集包含《The Onion》发布的假新闻文章和来自Reddit论坛r/NotTheOnion的真实“洋葱式”新闻文章。《The... -
语言检测数据集
语言检测数据集 数据来源:互联网公开数据 标签:语言检测,文本分类,社交媒体分析,推特数据,多语言处理 数据概述: 本数据集包含收集自2021年至2022年间推特上特定话题标签的推文数据,涵盖英语、法语和摩洛哥方言达里贾三种语言。数据集共包含约420行每种语言的数据,总计13153行,每行数据包括两个列:推文内容和对应的标签。 数据用途概述:... -
多语言有毒言论检测数据集2023
多语言有毒言论检测数据集2023 数据来源:互联网公开数据 标签:有毒言论,社交媒体,自然语言处理,多语言,文本分类,情感分析,言论监测 数据概述: 本数据集收录了用法语、英语和阿拉伯语标注的推文,每条推文被标记为有毒或非有毒。数据集中,标签0表示非有毒推文,标签1表示有毒推文。该数据集为研究多语言环境下的有毒言论提供了丰富的资源。 数据用途概述:... -
烂番茄电影评论情感分析数据集
烂番茄电影评论情感分析数据集 数据来源:互联网公开数据 标签:电影评论,情感分析,文本分类,自然语言处理,情感极性,烂番茄,评论数据 数据概述: 本数据集是一个情感分类数据集,包含了来自烂番茄电影评论的5331条正面评价和5331条负面评价,共计10662条评论。这些评论都经过了预处理,平均每条评论包含21个单词。该数据集常被用作文本分类任务的基准。... -
会议论文标题与会议信息数据集
会议论文标题与会议信息数据集 数据来源:互联网公开数据 标签:会议论文,标题,会议信息,自然语言处理,文本分类,主题建模,出版趋势,计算机科学,工程学 数据概述: 本数据集包含各类会议论文的标题及其发表的会议信息,涵盖了计算机科学和工程学等多个领域的领先会议。数据集提供了每个论文的标题和发表会议的名称,有助于研究这些会议的研究重点、模式和话题多样性。... -
印地语-英语混合数据集
印地语-英语混合数据集 数据来源:互联网公开数据 标签:印地语,英语,混合语言,评论数据,网络欺凌,文本分类,社会媒体分析 数据概述: 本数据集包含超过9000条标注的印地语-英语混合语言(Hinglish)评论。每条评论都被标注为0或1,分别表示非欺凌评论和欺凌评论。数据集提供了丰富的多语言文本样本,适用于分析和研究网络环境中的欺凌行为。...