数据集 - 海数据

正则表达式与文本挖掘清理后的NLP数据集-janiscorona

2025年4月22日

正则表达式与文本挖掘清理后的NLP数据集-janiscorona 数据来源：互联网公开数据标签：自然语言处理，文本挖掘，正则表达式，数据清洗，NLP，数据集，文本分析，数据预处理数据概述：该数据集包含了经过清洗和预处理的文本数据，主要用于自然语言处理（NLP）和文本挖掘任务。主要特征如下：...

ZIP

GoJek用户应用评价数据集UASReviewGojekDataset-dwialviany

2025年4月22日

GoJek用户应用评价数据集UASReviewGojekDataset-dwialviany 数据来源：互联网公开数据标签：用户评价，出行服务，数据集，文本分析，情感分析，自然语言处理，服务质量，移动应用数据概述：该数据集包含来自GoJek用户的应用评价数据，记录了用户对GoJek出行服务的反馈和体验。主要特征如下：...

ZIP

聊天机器人对话数据集ChatbotCSVDataset-hageribrahim55

2025年4月22日

聊天机器人对话数据集ChatbotCSVDataset-hageribrahim55 数据来源：互联网公开数据标签：自然语言处理，对话系统，数据集，机器学习，聊天机器人，人工智能，文本分析，数据挖掘数据概述：该数据集包含来自聊天机器人对话系统的数据，记录了用户与聊天机器人之间的互动对话内容。主要特征如下：...

ZIP

越南语与德语平行语料数据集Vietnamese-GermanParallelCorpusDataset-flightstar

2025年4月22日

越南语与德语平行语料数据集Vietnamese-GermanParallelCorpusDataset-flightstar 数据来源：互联网公开数据标签：自然语言处理，机器翻译，数据集，语料库，双语数据，文本分析，人工智能，语言技术数据概述：该数据集包含越南语与德语的平行语料数据，记录了两种语言之间的对齐文本。主要特征如下：...

ZIP

命名实体识别数据集NER-animeshnareda

2025年4月22日

命名实体识别数据集NER-animeshnareda 数据来源：互联网公开数据标签：自然语言处理，命名实体识别，数据集，文本分析，机器学习，信息抽取，人工智能，NLP 数据概述：该数据集包含来自多个领域的文本数据，用于训练和评估命名实体识别模型。主要特征如下：时间跨度：数据记录的时间范围不固定，涵盖了不同时期的新闻，文章和报告等。...

ZIP

班加罗尔推特数据集BangaloreTweetsDataset-mlcovidresearch

2025年4月22日

班加罗尔推特数据集BangaloreTweetsDataset-mlcovidresearch 数据来源：互联网公开数据标签：社交媒体，文本分析，情感分析，数据挖掘，机器学习，城市研究，舆情分析，公众意见数据概述：该数据集包含来自班加罗尔地区的推特数据，记录了该城市用户在社交媒体上的公开言论和互动信息。主要特征如下：...

ZIP

图书信息数据集BookInformationDataset-wonbinseo

2025年4月22日

图书信息数据集BookInformationDataset-wonbinseo 数据来源：互联网公开数据标签：图书信息，数据集，数据分析，图书馆学，教育研究，信息管理，文本分析数据概述：该数据集包含来自多个图书资源平台的图书信息数据，记录了各类图书的详细信息。主要特征如下：时间跨度：数据记录的时间范围从20世纪初到现代。...

ZIP

人工智能生成文本竞赛合成数据集-sharathshebbar

2025年4月22日

人工智能生成文本竞赛合成数据集-sharathshebbar 数据来源：互联网公开数据标签：人工智能，文本生成，数据集，自然语言处理，机器学习，文本分析，竞赛，模型评估数据概述：该数据集包含为人工智能生成文本竞赛（AI-Generated Text...

ZIP

TikTok非精简版谷歌商店用户评论情感分析数据集-全球用户-时间跨度未知

2025年4月22日

TikTok非精简版谷歌商店用户评论情感分析数据集-全球用户-时间跨度未知数据来源：互联网公开数据标签：TikTok, 社交媒体, 用户评论, 情感分析, 谷歌商店, 应用评估, 数据挖掘, 文本分析, 产品反馈数据概述：...

ZIP

文本可读性分析演示数据集-uocoeeds

2025年4月22日

文本可读性分析演示数据集-uocoeeds 数据来源：互联网公开数据标签：文本分析，可读性，自然语言处理，数据集，语言模型，文本挖掘，机器学习，教育数据概述：该数据集包含来自不同来源的文本数据，旨在用于评估和演示文本可读性分析方法。主要特征如下：时间跨度：数据记录的时间范围不固定，涵盖了不同时期的文本。...

ZIP

讽刺文本检测数据集-raviutsavk

2025年4月22日

讽刺文本检测数据集-raviutsavk 数据来源：互联网公开数据标签：文本分析，情感分析，讽刺检测，自然语言处理，机器学习，数据集，社交媒体，语言学数据概述：该数据集包含了用于讽刺文本检测的数据，记录了带有讽刺意味的文本及其对应的标签。主要特征如下：时间跨度：数据记录的时间范围不限，涵盖了不同时期和类型的讽刺文本。...

ZIP

社交媒体X情感分析数据集2023-wildanabid19

2025年4月22日

社交媒体X情感分析数据集2023-wildanabid19 数据来源：互联网公开数据标签：情感分析,社交媒体X,推特,数据集,文本分析,自然语言处理,Transformer模型数据概述：...

ZIP

维基百科随机采样句子数据集-jeffheaton

2025年4月22日

维基百科随机采样句子数据集-jeffheaton 数据来源：互联网公开数据标签：维基百科,句子采样,句子对比,文本分析,自然语言处理,教育,研究数据概述：...

ZIP

压力检测数据集-2023-vanamayaswanth

2025年4月22日

压力检测数据集-2023-vanamayaswanth 数据来源：互联网公开数据标签：压力检测,NLP,机器学习,情感分析,心理健康,文本分析,数据集数据概述：...

ZIP

俄罗斯新闻标题用于点击诱饵文章分类2023-anzerone

2025年4月22日

俄罗斯新闻标题用于点击诱饵文章分类2023-anzerone 数据来源：互联网公开数据标签：新闻，标题，分类，自然语言处理，点击诱饵，文本分析，俄语数据集描述：本数据集包含过去几个月内从多个俄罗斯新闻网站收集的新闻文章。该数据集的创建目的是为了开发和测试不同的自然语言处理（NLP）模型，以及构建用于文本分类（识别点击诱饵与非点击诱饵标题）的模型。...

ZIP

爱尔兰古语与中古爱尔兰语语料库数据集-noahsullivan

2025年4月22日

爱尔兰古语与中古爱尔兰语语料库数据集-noahsullivan 数据来源：互联网公开数据标签：语料库,古语,中古爱尔兰语,自然语言处理,词典,语言学,历史,文化,文本分析数据概述：本数据集为《爱尔兰古语与中古爱尔兰语语料库》（Corpus PalaeoHibernicum,...

ZIP

推特用户活跃度与内容分析数据集-基于TwitterAPI抓取数据-时间跨度待定-dzikrifaizziyan

2025年4月22日

推特用户活跃度与内容分析数据集-基于TwitterAPI抓取数据-时间跨度待定-dzikrifaizziyan 数据来源：互联网公开数据 (通过Twitter API抓取) 标签：推特,Twitter,社交媒体,用户行为,文本分析,情感分析,数据抓取,API,Python,Databricks 数据概述：本数据集通过Twitter...