找到5,732个数据集

标签: 文本分析

过滤结果
  • 推特文本分析与机器学习数据集TwitterDatasetsforNLPandMachineLearning-aviralmishra1998

    2025年4月22日   

    推特文本分析与机器学习数据集TwitterDatasetsforNLPandMachineLearning-aviralmishra1998 数据来源:互联网公开数据 标签:推特,社交媒体,文本分析,自然语言处理,机器学习,情感分析,话题检测,数据集 数据概述:...
    packageimg
  • 词性标注数据集POSTaggingDataset-hiuanh

    2025年4月22日   

    词性标注数据集POSTaggingDataset-hiuanh 数据来源:互联网公开数据 标签:自然语言处理,词性标注,数据集,文本分析,机器学习,语言模型,文本挖掘,计算机语言学 数据概述: 该数据集专注于词性标注任务,包含大量文本样本及其对应的词性标签。主要特征如下: 时间跨度:数据记录的时间范围未明确,但数据集内容通常反映通用语言特征。...
    packageimg
  • 新闻组文本分类数据集20NewsgroupsDataset-aniket13r

    2025年4月22日   

    新闻组文本分类数据集20NewsgroupsDataset-aniket13r 数据来源:互联网公开数据 标签:文本分类,自然语言处理,数据集,机器学习,新闻,文本分析,主题建模,信息检索 数据概述: 该数据集包含了大约20,000篇新闻组文档,涵盖了20个不同的新闻组主题。主要特征如下: 时间跨度:数据收集的时间范围大约在1990年代初期。...
    packageimg
  • Netflix评论情感分析数据集NetflixReviewsSentimentDataset-parthbatra

    2025年4月22日   

    Netflix评论情感分析数据集NetflixReviewsSentimentDataset-parthbatra 数据来源:互联网公开数据 标签:情感分析,Netflix,评论,数据集,自然语言处理,文本分析,机器学习,用户行为 数据概述: 该数据集包含来自 Netflix 用户的评论数据,并标注了情感极性。主要特征如下:...
    packageimg
  • 搞笑段子数据集CombinedGoodJokesDataset-ihdufxr2024

    2025年4月22日   

    搞笑段子数据集CombinedGoodJokesDataset-ihdufxr2024 数据来源:互联网公开数据 标签:幽默,段子,笑话,数据集,自然语言处理,文本分析,情感分析,娱乐 数据概述: 该数据集包含了来自多个来源的搞笑段子,旨在提供一个用于文本分析和自然语言处理的资源。主要特征如下:...
    packageimg
  • 五三八网站FiveThirtyEight人物角色数据集-saumyatiwari2001

    2025年4月22日   

    五三八网站FiveThirtyEight人物角色数据集-saumyatiwari2001 数据来源:互联网公开数据 标签:人物角色,数据集,电影,电视,媒体,文本分析,数据新闻,流行文化 数据概述: 该数据集收录了来自五三八网站(FiveThirtyEight)的人物角色数据,主要记录了电影和电视节目中人物角色的相关信息。主要特征如下:...
    packageimg
  • 莫里哀戏剧台词数据集-guillaumegrosjean

    2025年4月22日   

    莫里哀戏剧台词数据集-guillaumegrosjean 数据来源:互联网公开数据 标签:戏剧,文学,莫里哀,台词,表演,语言模型,文本分析,法国古典主义,剧本 数据概述: 本数据集收录了莫里哀创作的32部戏剧作品中的所有台词提示(cue)。数据集以.csv文件形式存储,包含6个字段,详细描述了每句台词的上下文信息。 数据结构:...
    packageimg
  • 医疗问答自然语言处理数据集MedQuadNLPDataset-dibyasankhapal

    2025年4月22日   

    医疗问答自然语言处理数据集MedQuadNLPDataset-dibyasankhapal 数据来源:互联网公开数据 标签:医疗问答,自然语言处理,数据集,机器学习,医学信息,健康咨询,文本分析,人工智能 数据概述: 该数据集包含来自医疗问答平台的数据,记录了用户与医疗专家之间的交互问答,适用于自然语言处理,医疗信息提取等任务。主要特征如下:...
    packageimg
  • 印度央行RBI推特内容数据集-2021年4月18日-abhikol

    2025年4月22日   

    印度央行RBI推特内容数据集-2021年4月18日-abhikol 数据来源:互联网公开数据 标签:RBI,推特,印度央行,货币政策,经济,金融,数据分析,文本分析,学术研究,金融政策 数据概述: 本数据集包含了2021年4月18日通过官方Twitter...
    packageimg
  • 十大说唱歌手作品文本分析数据集-2023-ngxdtv

    2025年4月22日   

    十大说唱歌手作品文本分析数据集-2023-ngxdtv 数据来源:互联网公开数据 标签:说唱音乐,文本分析,自然语言处理,机器学习,文本分类,情感分析,主题建模,文本生成,语言模型,语音识别 数据概述: 本数据集包含超过2600首由十个不同说唱歌手创作的作品文本,其中包括Ali As、Alligatoah、Kollegah和Kool...
    packageimg
  • 电子邮件垃圾邮件分类数据集EmailHamSpamDataset-hamedetezadi

    2025年4月22日   

    电子邮件垃圾邮件分类数据集EmailHamSpamDataset-hamedetezadi 数据来源:互联网公开数据 标签:垃圾邮件,电子邮件,数据集,分类算法,机器学习,文本分析,自然语言处理,数据挖掘 数据概述: 该数据集包含来自电子邮件系统的邮件数据,记录了邮件内容及其分类标签(垃圾邮件或正常邮件)。主要特征如下:...
    packageimg
  • Reddit平台板球讨论内容数据集-r-Cricket-2024年-gpreda

    2025年4月22日   

    Reddit平台板球讨论内容数据集-r-Cricket-2024年-gpreda 数据来源:互联网公开数据 标签:板球,Reddit,社交媒体,讨论,评论,帖子,体育,文本分析,情感分析,话题 数据概述:...
    packageimg
  • 钓鱼邮件识别数据集FishingMailDataset-somumourya

    2025年4月22日   

    钓鱼邮件识别数据集FishingMailDataset-somumourya 数据来源:互联网公开数据 标签:钓鱼邮件,电子邮件,数据集,网络安全,机器学习,文本分析,垃圾邮件,人工智能 数据概述: 该数据集包含来自互联网的钓鱼邮件样本,记录了不同类型的钓鱼邮件内容,适用于钓鱼邮件识别和反钓鱼技术的研究。主要特征如下:...
    packageimg
  • VK群组内容与评论数据集

    2025年4月22日   

    VK群组内容与评论数据集 数据来源:互联网公开数据 标签:VK,社交媒体,NLP,数据预处理,机器学习,文本分析,情感分析,用户行为,内容分类 数据概述: 本数据集通过VK...
    packageimg
  • 阿拉伯语句子数据集ArabicSentencesDataset-ahmedtaha8889

    2025年4月22日   

    阿拉伯语句子数据集ArabicSentencesDataset-ahmedtaha8889 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,数据集,文本分析,机器翻译,语言模型,文本语料库,语言学 数据概述: 该数据集包含超过70万条阿拉伯语句子,旨在为自然语言处理(NLP)任务提供丰富的文本语料库。主要特征如下:...
    packageimg
  • 美国专利短语数据扩充与翻译数据集USPatentPhraseDataAugmentationandTranslationDataset-tauilabdelilah

    2025年4月22日   

    美国专利短语数据扩充与翻译数据集USPatentPhraseDataAugmentationandTranslationDataset-tauilabdelilah 数据来源:互联网公开数据 标签:专利数据,数据扩充,机器翻译,自然语言处理,数据集,文本分析,创新研究,知识产权...
    packageimg
  • CommonLit英语文章摘要数据集-artisusxiren

    2025年4月22日   

    CommonLit英语文章摘要数据集-artisusxiren 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,英语学习,机器翻译,文本分析,语言模型,教育 数据概述: 该数据集包含来自CommonLit平台提供的英语文章摘要数据,旨在用于文本摘要,自然语言处理和英语学习相关的研究。主要特征如下:...
    packageimg
  • 巴基斯坦推特推文数据集PakistanTweetsDataset-umarfarooq45

    2025年4月22日   

    巴基斯坦推特推文数据集PakistanTweetsDataset-umarfarooq45 数据来源:互联网公开数据 标签:社交媒体,推特,文本分析,巴基斯坦,自然语言处理,情感分析,社会学,舆情分析 数据概述: 该数据集包含了来自巴基斯坦地区的推特推文数据,记录了用户在推特平台上的公开言论。主要特征如下:...
    packageimg
  • 检索公共测试数据集-nhutchung

    2025年4月22日   

    检索公共测试数据集-nhutchung 数据来源:互联网公开数据 标签:信息检索,数据集,文本分析,机器学习,自然语言处理,搜索,评估,测试 数据概述: 该数据集包含用于信息检索任务的公开测试数据,记录了检索系统性能的评估指标。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于具体数据集的发布时间。...
    packageimg
  • 命名实体识别原始数据集NamedEntityRecognitionRawDataDataset-kiruthigaa

    2025年4月22日   

    命名实体识别原始数据集NamedEntityRecognitionRawDataDataset-kiruthigaa 数据来源:互联网公开数据 标签:命名实体识别,数据集,自然语言处理,文本分析,机器学习,人工智能,语言学,文本挖掘 数据概述:该数据集包含来自多个来源的原始文本数据,记录了用于命名实体识别的任务。主要特征如下:...
    packageimg