-
主题建模数据集TopicModelingDataset-quangvinhtrnh
主题建模数据集TopicModelingDataset-quangvinhtrnh 数据来源:互联网公开数据 标签:主题建模,数据集,自然语言处理,文本分析,机器学习,数据挖掘,信息检索,文本挖掘 数据概述: 该数据集专注于主题建模任务,包含来自多个来源的文本数据,用于分析文本内容中的潜在主题。主要特征如下:... -
中文新闻语料库-2011至最新-ceshine
中文新闻语料库-2011至最新-ceshine 数据来源:互联网公开数据 标签:中文新闻,语料库,NLP,文本分析,传统中文,简体中文,互联网新闻,新闻媒体 数据概述:... -
南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah
南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah 数据来源:互联网公开数据 标签:垃圾邮件,数据集,邮件过滤,自然语言处理,机器学习,信息安全,文本分析,学术资源 数据概述:该数据集由南洋理工大学提供,主要用于垃圾邮件的识别和过滤。主要特征如下: 时间跨度:数据记录的时间范围从2002年到2004年。... -
孟加拉语情感分析数据集-2013-faridmiah
孟加拉语情感分析数据集-2013-faridmiah 数据来源:互联网公开数据 标签:孟加拉语,情感分析,社交媒体,数据科学,文本分析,机器学习,数据集 数据概述:... -
僧伽罗语新闻标题数据集-nawarathnadeshan
僧伽罗语新闻标题数据集-nawarathnadeshan 数据来源:互联网公开数据 标签:新闻,文本分析,自然语言处理,僧伽罗语,文本分类,情感分析,数据集,信息检索 数据概述: 该数据集包含来自僧伽罗语新闻网站的新闻标题数据,记录了各种新闻文章的标题信息。主要特征如下: 时间跨度:数据记录的时间范围为特定时间段,具体时间范围取决于数据集的构建时间。... -
电子邮件垃圾邮件分类数据集EmailSpamClassifierDataset-prasaddablikar
电子邮件垃圾邮件分类数据集EmailSpamClassifierDataset-prasaddablikar 数据来源:互联网公开数据 标签:垃圾邮件,分类,数据集,机器学习,自然语言处理,文本分析,网络安全,数据挖掘 数据概述: 该数据集包含来自互联网公开渠道的电子邮件数据,记录了电子邮件的文本内容及其分类标签(垃圾邮件或正常邮件)。主要特征如下:... -
虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98
虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98 数据来源:互联网公开数据 标签:虚假新闻,数据集,自然语言处理,机器学习,文本分析,信息检索,事实核查,新闻传播 数据概述: 该数据集包含用于虚假新闻检测的文本数据,记录了真实新闻和虚假新闻的文本内容。主要特征如下: 时间跨度:... -
多标签文本分类数据集-bimleshkumar759
多标签文本分类数据集-bimleshkumar759 数据来源:互联网公开数据 标签:文本分类,多标签,数据集,机器学习,自然语言处理,文本分析,深度学习,NLP 数据概述: 该数据集包含用于多标签文本分类任务的文本数据。主要特征如下: 时间跨度: 数据记录的时间范围不固定,取决于原始数据来源。 地理范围: 数据覆盖范围不固定,取决于原始数据来源。... -
新闻文章分类数据集NewsArticleCategoriesDataset-mrfaheem
新闻文章分类数据集NewsArticleCategoriesDataset-mrfaheem 数据来源:互联网公开数据 标签:新闻,文章分类,数据集,文本分析,机器学习,自然语言处理,信息检索,数据挖掘 数据概述: 该数据集包含来自多个新闻来源的文章数据,记录了不同类别的新闻文章内容及其分类标签。主要特征如下:... -
WorldStar视频评论数据集WorldStarCommentsDataset-dataranch
WorldStar视频评论数据集WorldStarCommentsDataset-dataranch 数据来源:互联网公开数据 标签:视频评论,社交媒体,文本分析,情感分析,自然语言处理,数据集,舆情分析,用户行为 数据概述: 该数据集包含了来自WorldStarHipHop网站的视频评论数据,记录了用户对各类视频的评论内容。主要特征如下:... -
Goodreads网站书籍信息抓取数据集-muhyusuf1112
Goodreads网站书籍信息抓取数据集-muhyusuf1112 数据来源:互联网公开数据 标签:书籍,Goodreads,网络抓取,数据集,文学,评论,推荐,文本分析 数据概述:该数据集包含从 Goodreads 网站抓取的书籍信息,记录了书籍的详细描述和用户反馈。主要特征如下: 时间跨度:数据抓取时间为[具体时间,例如:2023年]。... -
地理位置提及识别数据集ZindiLocationMentionRecognitionDataset-tanhtr
地理位置提及识别数据集ZindiLocationMentionRecognitionDataset-tanhtr 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,位置识别,机器学习,信息提取,地理信息系统,命名实体识别 数据概述: 该数据集由Zindi平台提供,专注于识别文本中提及的地理位置信息。主要特征如下:... -
性别检测数据集GenderDetectionDataset-subhajournal
性别检测数据集GenderDetectionDataset-subhajournal 数据来源:互联网公开数据 标签:性别检测,数据集,自然语言处理,机器学习,文本分析,文本分类,社会研究,信息提取 数据概述:该数据集包含来自互联网的公开数据,记录了不同用户在社交媒体上的用户名,昵称和相关文本信息,适用于性别检测和分类任务。主要特征如下:... -
用户行为与文本分析数据集多维度用户特征深度解析
标题:用户行为与文本分析数据集多维度用户特征深度解析 数据内容:本数据集包含来自互联网公开数据的多维度用户信息,具体字段包括: - 用户标识(set_id):20种不同值,用于唯一标识用户 - 性别(gender):包括男性和女性两种类型 - 年龄(age):覆盖11个不同年龄段 - 国家(country):涉及8个不同国家 -... -
葡萄牙语文本分类数据集PortugueseTextClassificationDataset-rookiejing
葡萄牙语文本分类数据集PortugueseTextClassificationDataset-rookiejing 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,语言模型,机器学习,多语言,文本分析,语言学 数据概述: 该数据集包含来自葡萄牙语互联网的文本数据,专门用于葡萄牙语的文本分类任务。主要特征如下:... -
新闻数据集NewsDataOneDataset-sammyke
新闻数据集NewsDataOneDataset-sammyke 数据来源:互联网公开数据 标签:新闻,数据集,文本分析,信息检索,自然语言处理,机器学习,数据挖掘,新闻媒体 数据概述: 该数据集包含来自多个新闻媒体平台的数据,记录了各类新闻文章的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。... -
社交媒体数据科学推文互动分析数据集-2020至2022年-jhonny1201
社交媒体数据科学推文互动分析数据集-2020至2022年-jhonny1201 数据来源:互联网公开数据 标签:数据科学,社交媒体,推文,Twitter,文本分析,用户互动,时间序列,情感分析 数据概述:... -
Reddit金融新闻标题数据集RedditFinanceHeadlinesDataset-vantran1510
Reddit金融新闻标题数据集RedditFinanceHeadlinesDataset-vantran1510 数据来源:互联网公开数据 标签:金融新闻,数据集,自然语言处理,文本分析,机器学习,情感分析,新闻标题,数据分析 数据概述: 该数据集包含来自Reddit平台的金融新闻标题数据,记录了金融领域的新闻标题及其相关信息。主要特征如下:... -
词频统计数据集WordFrequenciesDataset-patricknormile
词频统计数据集WordFrequenciesDataset-patricknormile 数据来源:互联网公开数据 标签:文本分析,词频统计,自然语言处理,数据集,数据挖掘,语言学,机器学习,文本预处理 数据概述: 该数据集包含来自多个文本来源的词频统计数据,记录了不同语料库中单词出现的频率。主要特征如下:... -
活动博客数据集Events-BlogDataset-sahilsaxenass
活动博客数据集Events-BlogDataset-sahilsaxenass 数据来源:互联网公开数据 标签:博客,活动记录,数据集,文本分析,社交媒体,内容管理,机器学习,信息挖掘 数据概述: 该数据集包含来自博客平台的活动记录数据,记录了各类活动的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。...