-
垃圾邮件与正常邮件分类数据集-邮件内容与标签-israkhasanjone
垃圾邮件与正常邮件分类数据集-邮件内容与标签-israkhasanjone 数据来源:互联网公开数据 标签:邮件,垃圾邮件,正常邮件,文本分类,自然语言处理,机器学习,文本数据 数据概述:... -
数据2020天池NLP中文文本分类竞赛数据集-jt120lz
2020天池NLP中文文本分类竞赛数据集-jt120lz 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,中文,NLP竞赛,情感分析,语义理解 数据概述: 该数据集来自2020年天池平台举办的NLP(自然语言处理)中文文本分类竞赛,记录了中文文本数据及其对应的类别标签。主要特征如下:... -
土耳其语Twitter平台社交媒体攻击性语言检测数据集-eymaahner
土耳其语Twitter平台社交媒体攻击性语言检测数据集-eymaahner 数据来源:互联网公开数据 标签:土耳其语, Twitter, 社交媒体, 攻击性语言, 情感分析, 自然语言处理, 文本分类, 机器学习 数据概述:... -
孟加拉语虚假新闻分类数据集-hakim11
孟加拉语虚假新闻分类数据集-hakim11 数据来源:互联网公开数据 标签:虚假新闻,孟加拉语,自然语言处理,文本分类,机器学习,新闻分析,语言学,情感分析 数据概述:该数据集包含孟加拉语的虚假新闻文本,用于进行虚假新闻的检测与分类。主要特征如下: 时间跨度:数据收集的时间范围不明确,但包含了近期发布的新闻。... -
印地语细粒度情感文本数据集EMOHI58KFine-grainedHindiEmotionDataText-debadityashome
印地语细粒度情感文本数据集EMOHI58KFine-grainedHindiEmotionDataText-debadityashome 数据来源:互联网公开数据 标签:情感分析,印地语,数据集,自然语言处理,文本分类,情感识别,机器学习,多语言处理 数据概述: 该数据集包含来自公开来源的印地语文本数据,记录了不同情感的文本表达。主要特征如下:... -
电影评论数据集50000条评论MovieReviewDataset50000Rows-kunaljcdu
电影评论数据集50000条评论MovieReviewDataset50000Rows-kunaljcdu 数据来源:互联网公开数据 标签:电影评论,数据集,自然语言处理,情感分析,机器学习,文本挖掘,文本分类,文化研究 数据概述:该数据集包含50000条电影评论,记录了观众对电影的详细评论内容及情感评分。主要特征如下:... -
BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen
BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen 数据来源:互联网公开数据 标签:新闻分析,自然语言处理,数据集,文本分类,机器学习,信息提取,语言模型,数据挖掘 数据概述: 该数据集包含来自BBC新闻的文本数据,记录了新闻文章的标题,内容,分类标签等信息。主要特征如下:... -
深度学习模型训练数据SubmissionTrainEpoch10-ryosukeozaki
深度学习模型训练数据SubmissionTrainEpoch10-ryosukeozaki 数据来源:互联网公开数据 标签:深度学习,模型训练,数据集,文本分类,自然语言处理,机器学习,数据分析,神经网络 数据概述: 该数据集包含用于深度学习模型训练的文本数据,记录了模型在训练过程中的数据表现。主要特征如下:... -
印度2019大选期间政党推文情感分析数据集-rishabhvyas
印度2019大选期间政党推文情感分析数据集-rishabhvyas 数据来源:互联网公开数据 标签:印度选举,推文,情感分析,BJP,国大党,数据预处理,机器学习,文本分类,自然语言处理 数据概述: 本数据集包含2019年印度大选期间与印度两大主要政党BJP(印度人民党)和国大党相关的推文。这些推文通过Twitter... -
未对齐的标记化数据集CenteredTokenized-2Dataset-enarior
未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本处理,机器学习,语言模型,数据标注,文本分类,深度学习 数据概述: 该数据集包含来自未对齐标记化处理过程的文本数据,记录了经过特定标记化方法处理的文本样本。主要特征如下:... -
Quora重复问题数据集QuoraDuplicateQuestionsDataset-ekanshu
Quora重复问题数据集QuoraDuplicateQuestionsDataset-ekanshu 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,问答系统,信息检索,深度学习,语义分析 数据概述: 该数据集包含来自Quora平台的问答数据,记录了平台上用户提出的问题及其标签。主要特征如下:... -
推特产品情感分析数据集-blessondensil294
推特产品情感分析数据集-blessondensil294 数据来源:互联网公开数据 标签:情感分析,推特,产品评价,自然语言处理,文本分类,机器学习,社交媒体,舆情分析 数据概述: 该数据集包含了来自推特平台的产品相关推文,用于情感分析任务。主要特征如下: 时间跨度:数据记录的时间范围为一段时间内的推文。... -
在线评论立场识别数据集OLIDCleanedDataset-barunikarthika
在线评论立场识别数据集OLIDCleanedDataset-barunikarthika 数据来源:互联网公开数据 标签:自然语言处理,文本分类,立场识别,数据集,机器学习,社交媒体,情感分析,情感计算 数据概述: 该数据集包含来自社交媒体平台的在线评论数据,记录了用户对不同话题的立场和态度。主要特征如下:... -
达里جة语句子数据集DarijaSentencesDataset-atif10
达里جة语句子数据集DarijaSentencesDataset-atif10 数据来源:互联网公开数据 标签:自然语言处理,语言数据集,文本分类,情感分析,机器学习,人工智能,语言研究,非洲语言 数据概述: 该数据集包含来自摩洛哥达里جة语的真实句子数据,记录了该语言的日常用语和表达。主要特征如下:... -
突尼斯短信垃圾邮件数据集TunisianSMSSpamandHamCollection-mahdibenabdallah
突尼斯短信垃圾邮件数据集TunisianSMSSpamandHamCollection-mahdibenabdallah 数据来源:互联网公开数据 标签:短信,垃圾邮件,文本分类,自然语言处理,机器学习,阿拉伯语,数据集,文本分析 数据概述: 该数据集包含了来自突尼斯的短信数据,用于垃圾短信(Spam)和正常短信(Ham)的分类研究。主要特征如下:... -
法律公开测试数据集PublicTestLegalDataset-minhnguyendichnhat
法律公开测试数据集PublicTestLegalDataset-minhnguyendichnhat 数据来源:互联网公开数据 标签:法律,数据集,文本分析,自然语言处理,法律文本,机器学习,司法,文本分类 数据概述: 该数据集包含来自公开法律文本的数据,旨在用于法律领域的测试和评估。主要特征如下: 时间跨度:... -
Jigsaw恶意评论分类挑战赛评论数据集-koheishima
Jigsaw恶意评论分类挑战赛评论数据集-koheishima 数据来源:互联网公开数据 标签:恶意评论,文本分类,自然语言处理,情感分析,社交媒体,评论数据,毒性检测,在线社区,机器学习 数据概述: 本数据集包含了来自Jigsaw... -
中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai
中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai 数据来源:互联网公开数据 标签:文本分类,自然语言处理,中文,标签,训练集,RoBERTa,机器学习 数据概述: 本数据集包含三个子集,均与中文文本分类任务相关,主要基于RoBERTa模型进行标签生成与处理。 AM-1 (使用180_filtered_rb标记的训练集):... -
BERT模型基线实验数据集BERTBaselineExperimentDataset-kenkrige
BERT模型基线实验数据集BERTBaselineExperimentDataset-kenkrige 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,情感分析,机器翻译,文本生成,深度学习,BERT模型 数据概述: 该数据集包含了用于训练和评估BERT模型的基础文本数据,用于构建BERT模型的基线实验。主要特征如下:... -
西班牙国会发言标点检测数据集
西班牙国会发言标点检测数据集 数据来源:互联网公开数据 标签:西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类 数据概述: 本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录,按发言人分段整理。每句话被拆分为单个单词,并根据以下标准进行分类: 1....