数据集 - 海数据

主题建模数据集TopicModelingDataset-quangvinhtrnh

2025年4月23日

主题建模数据集TopicModelingDataset-quangvinhtrnh 数据来源：互联网公开数据标签：主题建模，数据集，自然语言处理，文本分析，机器学习，数据挖掘，信息检索，文本挖掘数据概述：该数据集专注于主题建模任务，包含来自多个来源的文本数据，用于分析文本内容中的潜在主题。主要特征如下：...

ZIP

中文新闻语料库-2011至最新-ceshine

2025年4月23日

中文新闻语料库-2011至最新-ceshine 数据来源：互联网公开数据标签：中文新闻,语料库,NLP,文本分析,传统中文,简体中文,互联网新闻,新闻媒体数据概述：...

ZIP

南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah

2025年4月23日

南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah 数据来源：互联网公开数据标签：垃圾邮件，数据集，邮件过滤，自然语言处理，机器学习，信息安全，文本分析，学术资源数据概述：该数据集由南洋理工大学提供，主要用于垃圾邮件的识别和过滤。主要特征如下：时间跨度：数据记录的时间范围从2002年到2004年。...

ZIP

孟加拉语情感分析数据集-2013-faridmiah

2025年4月23日

孟加拉语情感分析数据集-2013-faridmiah 数据来源：互联网公开数据标签：孟加拉语,情感分析,社交媒体,数据科学,文本分析,机器学习,数据集数据概述：...

ZIP

僧伽罗语新闻标题数据集-nawarathnadeshan

2025年4月23日

僧伽罗语新闻标题数据集-nawarathnadeshan 数据来源：互联网公开数据标签：新闻，文本分析，自然语言处理，僧伽罗语，文本分类，情感分析，数据集，信息检索数据概述：该数据集包含来自僧伽罗语新闻网站的新闻标题数据，记录了各种新闻文章的标题信息。主要特征如下：时间跨度：数据记录的时间范围为特定时间段，具体时间范围取决于数据集的构建时间。...

ZIP

电子邮件垃圾邮件分类数据集EmailSpamClassifierDataset-prasaddablikar

2025年4月23日

电子邮件垃圾邮件分类数据集EmailSpamClassifierDataset-prasaddablikar 数据来源：互联网公开数据标签：垃圾邮件，分类，数据集，机器学习，自然语言处理，文本分析，网络安全，数据挖掘数据概述：该数据集包含来自互联网公开渠道的电子邮件数据，记录了电子邮件的文本内容及其分类标签（垃圾邮件或正常邮件）。主要特征如下：...

ZIP

虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98

2025年4月23日

虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98 数据来源：互联网公开数据标签：虚假新闻，数据集，自然语言处理，机器学习，文本分析，信息检索，事实核查，新闻传播数据概述：该数据集包含用于虚假新闻检测的文本数据，记录了真实新闻和虚假新闻的文本内容。主要特征如下：时间跨度：...

ZIP

多标签文本分类数据集-bimleshkumar759

2025年4月23日

多标签文本分类数据集-bimleshkumar759 数据来源：互联网公开数据标签：文本分类，多标签，数据集，机器学习，自然语言处理，文本分析，深度学习，NLP 数据概述：该数据集包含用于多标签文本分类任务的文本数据。主要特征如下：时间跨度：数据记录的时间范围不固定，取决于原始数据来源。地理范围：数据覆盖范围不固定，取决于原始数据来源。...

ZIP

新闻文章分类数据集NewsArticleCategoriesDataset-mrfaheem

2025年4月23日

新闻文章分类数据集NewsArticleCategoriesDataset-mrfaheem 数据来源：互联网公开数据标签：新闻，文章分类，数据集，文本分析，机器学习，自然语言处理，信息检索，数据挖掘数据概述：该数据集包含来自多个新闻来源的文章数据，记录了不同类别的新闻文章内容及其分类标签。主要特征如下：...

ZIP

WorldStar视频评论数据集WorldStarCommentsDataset-dataranch

2025年4月23日

WorldStar视频评论数据集WorldStarCommentsDataset-dataranch 数据来源：互联网公开数据标签：视频评论，社交媒体，文本分析，情感分析，自然语言处理，数据集，舆情分析，用户行为数据概述：该数据集包含了来自WorldStarHipHop网站的视频评论数据，记录了用户对各类视频的评论内容。主要特征如下：...

ZIP

Goodreads网站书籍信息抓取数据集-muhyusuf1112

2025年4月23日

Goodreads网站书籍信息抓取数据集-muhyusuf1112 数据来源：互联网公开数据标签：书籍，Goodreads，网络抓取，数据集，文学，评论，推荐，文本分析数据概述：该数据集包含从 Goodreads 网站抓取的书籍信息，记录了书籍的详细描述和用户反馈。主要特征如下：时间跨度：数据抓取时间为[具体时间，例如：2023年]。...

ZIP

地理位置提及识别数据集ZindiLocationMentionRecognitionDataset-tanhtr

2025年4月23日

地理位置提及识别数据集ZindiLocationMentionRecognitionDataset-tanhtr 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，位置识别，机器学习，信息提取，地理信息系统，命名实体识别数据概述：该数据集由Zindi平台提供，专注于识别文本中提及的地理位置信息。主要特征如下：...

ZIP

性别检测数据集GenderDetectionDataset-subhajournal

2025年4月23日

性别检测数据集GenderDetectionDataset-subhajournal 数据来源：互联网公开数据标签：性别检测，数据集，自然语言处理，机器学习，文本分析，文本分类，社会研究，信息提取数据概述：该数据集包含来自互联网的公开数据，记录了不同用户在社交媒体上的用户名，昵称和相关文本信息，适用于性别检测和分类任务。主要特征如下：...

ZIP

用户行为与文本分析数据集多维度用户特征深度解析

2025年4月23日

标题：用户行为与文本分析数据集多维度用户特征深度解析数据内容：本数据集包含来自互联网公开数据的多维度用户信息，具体字段包括： - 用户标识(set_id)：20种不同值，用于唯一标识用户 - 性别(gender)：包括男性和女性两种类型 - 年龄(age)：覆盖11个不同年龄段 - 国家(country)：涉及8个不同国家 -...

CSV

葡萄牙语文本分类数据集PortugueseTextClassificationDataset-rookiejing

2025年4月23日

葡萄牙语文本分类数据集PortugueseTextClassificationDataset-rookiejing 数据来源：互联网公开数据标签：自然语言处理，文本分类，数据集，语言模型，机器学习，多语言，文本分析，语言学数据概述：该数据集包含来自葡萄牙语互联网的文本数据，专门用于葡萄牙语的文本分类任务。主要特征如下：...

ZIP

新闻数据集NewsDataOneDataset-sammyke

2025年4月23日

新闻数据集NewsDataOneDataset-sammyke 数据来源：互联网公开数据标签：新闻，数据集，文本分析，信息检索，自然语言处理，机器学习，数据挖掘，新闻媒体数据概述：该数据集包含来自多个新闻媒体平台的数据，记录了各类新闻文章的详细信息。主要特征如下：时间跨度：数据记录的时间范围从2010年到2022年。...

ZIP

社交媒体数据科学推文互动分析数据集-2020至2022年-jhonny1201

2025年4月23日

社交媒体数据科学推文互动分析数据集-2020至2022年-jhonny1201 数据来源：互联网公开数据标签：数据科学，社交媒体，推文，Twitter，文本分析，用户互动，时间序列，情感分析数据概述：...

ZIP

Reddit金融新闻标题数据集RedditFinanceHeadlinesDataset-vantran1510

2025年4月23日

Reddit金融新闻标题数据集RedditFinanceHeadlinesDataset-vantran1510 数据来源：互联网公开数据标签：金融新闻，数据集，自然语言处理，文本分析，机器学习，情感分析，新闻标题，数据分析数据概述：该数据集包含来自Reddit平台的金融新闻标题数据，记录了金融领域的新闻标题及其相关信息。主要特征如下：...

ZIP

词频统计数据集WordFrequenciesDataset-patricknormile

2025年4月23日

词频统计数据集WordFrequenciesDataset-patricknormile 数据来源：互联网公开数据标签：文本分析，词频统计，自然语言处理，数据集，数据挖掘，语言学，机器学习，文本预处理数据概述：该数据集包含来自多个文本来源的词频统计数据，记录了不同语料库中单词出现的频率。主要特征如下：...

ZIP

活动博客数据集Events-BlogDataset-sahilsaxenass

2025年4月23日

活动博客数据集Events-BlogDataset-sahilsaxenass 数据来源：互联网公开数据标签：博客，活动记录，数据集，文本分析，社交媒体，内容管理，机器学习，信息挖掘数据概述：该数据集包含来自博客平台的活动记录数据，记录了各类活动的详细信息。主要特征如下：时间跨度：数据记录的时间范围从2010年到2022年。...

ZIP

找到5,734个数据集

注册成功！