数据集 - 海数据

内容推荐系统数据集Content-BasedRecommendationDataset-denizmac

2025年4月25日

内容推荐系统数据集Content-BasedRecommendationDataset-denizmac 数据来源：互联网公开数据标签：推荐系统，内容推荐，数据集，机器学习，用户行为，文本分析，信息检索，自然语言处理数据概述：该数据集包含来自多个来源的用户内容互动数据，记录了用户与内容项之间的交互信息。主要特征如下：...

ZIP

谣言识别与评估数据集RumourEval-NewDataset-latapangteyy

2025年4月25日

谣言识别与评估数据集RumourEval-NewDataset-latapangteyy 数据来源：互联网公开数据标签：谣言识别，社交媒体，数据集，自然语言处理，文本分析，深度学习，信息传播，情感分析数据概述：该数据集包含了来自社交媒体平台（如Twitter）的关于各种主题的谣言信息，旨在用于谣言的检测，评估和分析。主要特征如下：...

ZIP

文本清理数据集CleanedTextDataset-rahulk2197

2025年4月25日

文本清理数据集CleanedTextDataset-rahulk2197 数据来源：互联网公开数据标签：文本清理，数据集，自然语言处理，文本分析，机器学习，文本挖掘，数据预处理，语言学数据概述：该数据集包含经过清理和标准化处理的文本数据，适用于自然语言处理和文本分析。主要特征如下：时间跨度：数据记录的时间范围从2010年到2022年。...

ZIP

LIWC文本特征分析数据集LIWCFeaturesDataset-bimangiri

2025年4月25日

LIWC文本特征分析数据集LIWCFeaturesDataset-bimangiri 数据来源：互联网公开数据标签：文本分析，心理学，语言学，数据集，自然语言处理，情绪分析，情感计算，社交媒体数据概述：该数据集包含了使用语言调查和字数统计（LIWC）软件处理后的文本特征数据，用于分析文本中的心理，情绪和语言模式。主要特征如下：时间跨度：...

ZIP

钻井相关推文分析数据集Dril-TweetsDataset-jehant

2025年4月25日

钻井相关推文分析数据集Dril-TweetsDataset-jehant 数据来源：互联网公开数据标签：社交媒体，文本分析，数据集，情感分析，机器学习，石油天然气，舆情监测，自然语言处理数据概述：该数据集包含与钻井相关的推文数据，记录了社交媒体上关于钻井行业的讨论和观点。主要特征如下：时间跨度：数据记录的时间范围从2016年到2020年。...

ZIP

幽默检测数据集HumorDetectionDataset-amaanmansuri

2025年4月25日

幽默检测数据集HumorDetectionDataset-amaanmansuri 数据来源：互联网公开数据标签：幽默检测，自然语言处理，数据集，机器学习，文本分析，情感识别，人工智能，语言学数据概述：该数据集包含来自多个互联网来源的文本数据，记录了不同形式的幽默内容及其标签，适用于幽默检测，文本情感分析等任务。主要特征如下：...

ZIP

金融合规性审查数据集FinCompliants10000-fernandobordi

2025年4月25日

金融合规性审查数据集FinCompliants10000-fernandobordi 数据来源：互联网公开数据标签：金融，合规，数据集，文本分析，自然语言处理，风险管理，监管科技，机器学习数据概述：该数据集包含金融领域内的合规性审查相关数据，旨在支持对金融机构的合规性风险评估和管理。主要特征如下：...

ZIP

文本领域分类数据集-gauravduttakiit

2025年4月25日

文本领域分类数据集-gauravduttakiit 数据来源：互联网公开数据标签：文本分类，自然语言处理，机器学习，数据集，领域识别，数据挖掘，文本分析，人工智能数据概述：该数据集包含用于文本领域分类的数据，记录了不同文本内容所属的领域信息。主要特征如下：时间跨度：数据记录的时间范围不限，涵盖了不同时期的文本数据。...

ZIP

文档过滤与分类数据集FilteredDocumentsDataset-pragunsrivastava

2025年4月25日

文档过滤与分类数据集FilteredDocumentsDataset-pragunsrivastava 数据来源：互联网公开数据标签：文档处理，数据集，文本分类，自然语言处理，机器学习，信息检索，文本分析，数据挖掘数据概述：该数据集包含经过过滤和分类的文档数据，记录了各类文档的文本内容和分类标签。主要特征如下：时间跨度：...

ZIP

二十新闻组文本分类数据集-thedevastator

2025年4月21日

二十新闻组文本分类数据集-thedevastator 数据来源：互联网公开数据标签：文本分类,新闻组,机器学习,数据集,自然语言处理,文本分析数据概述：本数据集包含约20,000篇新闻组文档，这些文档被分为20个不同的新闻组。数据集最初由Ken...

ZIP

客户服务工单数据集-vijaythurimella

2025年4月25日

客户服务工单数据集-vijaythurimella 数据来源：互联网公开数据标签：客户服务，工单，文本分析，自然语言处理，机器学习，服务质量，客户体验，数据分析数据概述：该数据集包含客户服务工单数据，记录了客户与服务提供商之间的互动信息。主要特征如下：时间跨度：数据记录的时间范围，从[起始年份]到[结束年份]。...

ZIP

ArgRewritev2语料库数据集-nghtctrl

2025年4月25日

ArgRewritev2语料库数据集-nghtctrl 数据来源：互联网公开数据标签：自然语言处理，语料库，文本生成，机器翻译，文本重写，数据集，语言模型，文本分析数据概述：该数据集包含 ArgRewrite v2 语料库的数据，记录了文本重写任务的多种变体。主要特征如下：时间跨度：数据记录的时间范围为数据集构建和发布时间。...

ZIP

词向量与文档向量生成数据集WordandDoc2VecDataset-wordroid

2025年4月25日

词向量与文档向量生成数据集WordandDoc2VecDataset-wordroid 数据来源：互联网公开数据标签：自然语言处理，词向量，文档向量，数据集，机器学习，文本分析，向量化，文本挖掘数据概述：该数据集包含用于生成词向量（Word2Vec）和文档向量（Doc2Vec）的数据，记录了文本语料库的词汇和文档特征。主要特征如下：...

ZIP

土耳其体育新闻数据2024年4月数据集-denizhanahin

2025年4月25日

土耳其体育新闻数据2024年4月数据集-denizhanahin 数据来源：互联网公开数据标签：体育新闻，土耳其，数据集，文本分析，自然语言处理，新闻报道，体育赛事，情感分析数据概述：该数据集包含来自土耳其的体育新闻数据，记录了2024年4月期间的体育新闻报道。主要特征如下：时间跨度：数据记录的时间范围为2024年4月。...

ZIP

瓦里纳尔等人情绪维度数据集Valence-Arousal-DominanceDataset-josien

2025年4月25日

瓦里纳尔等人情绪维度数据集Valence-Arousal-DominanceDataset-josien 数据来源：互联网公开数据标签：情绪分析，情感计算，数据集，心理学，语言学，文本分析，情感词典，认知科学数据概述：...

ZIP

虚假新闻识别数据集RealFakeNewsDataset-abdelrhamanfakhry

2025年4月25日

虚假新闻识别数据集RealFakeNewsDataset-abdelrhamanfakhry 数据来源：互联网公开数据标签：新闻，虚假信息，数据集，文本分析，自然语言处理，机器学习，舆情分析，信息检索数据概述：该数据集包含来自不同来源的新闻文章，旨在用于虚假新闻的检测和识别研究。主要特征如下：...

ZIP

乌尔都语语言文本数据集Urdu-LanguageDataset-tabarkarajab

2025年4月25日

乌尔都语语言文本数据集Urdu-LanguageDataset-tabarkarajab 数据来源：互联网公开数据标签：语言处理，文本分析，自然语言处理，乌尔都语，机器学习，数据集，文本分类，多语言数据概述：该数据集包含来自互联网公开资源的乌尔都语文本数据，记录了乌尔都语的自然语言文本内容。主要特征如下：...

ZIP

自然语言处理入门数据集IntroductiontoNLPDataset-iheb404notfound

2025年4月25日

自然语言处理入门数据集IntroductiontoNLPDataset-iheb404notfound 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分析，机器学习，人工智能，语言模型，文本分类，情感分析数据概述：该数据集用于自然语言处理的入门学习和研究，记录了多种文本数据及相应的标注信息。主要特征如下：...

ZIP

数据2015至2023年卫报新闻链接数据集TheGuardianNewsLinksfrom2015to2023Dataset-kiet21042003

2025年4月25日

2015至2023年卫报新闻链接数据集TheGuardianNewsLinksfrom2015to2023Dataset-kiet21042003 数据来源：互联网公开数据标签：新闻媒体，数据集，时间序列，文本分析，机器学习，新闻研究，数据挖掘，信息检索数据概述：...

ZIP

越南维基百科抄袭检测数据集VietnameseWikipediaPlagiarismDetectionDataset-dungg1810

2025年4月25日

越南维基百科抄袭检测数据集VietnameseWikipediaPlagiarismDetectionDataset-dungg1810 数据来源：互联网公开数据标签：数据集，抄袭检测，文本分析，自然语言处理，机器学习，学术诚信，信息检索，越南语数据概述：该数据集包含来自越南维基百科的文本数据，记录了用于抄袭检测的文本样本。主要特征如下：...

ZIP

找到5,740个数据集

注册成功！