找到5,827个数据集

标签: 文本分析

过滤结果
  • 土耳其社交媒体文本数据集

    2025年4月15日   

    土耳其社交媒体文本数据集 数据来源:互联网公开数据 标签:社交媒体,文本分析,网络欺凌,情感分析,自然语言处理,土耳其语,机器学习 数据概述:...
    packageimg
  • 俄罗斯敏感话题不适当言论数据集

    2025年4月15日   

    俄罗斯敏感话题不适当言论数据集 数据来源:互联网公开数据 标签:敏感话题,不适当言论,网络言论,俄罗斯,自然语言处理,文本分析,社会学研究 数据概述: 本数据集专注于收集和分析涉及敏感话题的不适当言论,这些言论可能引起读者的不适或损害发言者的声誉。不适当性概念接近于毒性,但明确的毒性和明显的...
    packageimg
  • 坦桑尼亚斯瓦希里语新闻分类数据集

    2025年4月15日   

    坦桑尼亚斯瓦希里语新闻分类数据集 数据来源:互联网公开数据 标签:斯瓦希里语,新闻分类,坦桑尼亚,语言处理,数据竞赛,文本分析,媒体研究 数据概述:...
    packageimg
  • 写作质量分析文本变化补充数据集

    2025年4月15日   

    写作质量分析文本变化补充数据集 数据来源:互联网公开数据 标签:写作质量,文本变化,竞赛数据,学术研究,自然语言处理,数据补充,文本分析 数据概述:...
    packageimg
  • 圣经人物经文描述数据集

    2025年4月15日   

    圣经人物经文描述数据集 数据来源:互联网公开数据 标签:圣经,人物,经文,宗教研究,历史分析,文化研究,文本分析 数据概述: 本数据集名为BibleData-PersonVerse,提供了《圣经》中提及的众多个体的全面信息。数据集包含了每个个体的独特标识符(对应于BibleData-Person和BibleData-...
    packageimg
  • 新闻文章摘要数据集

    2025年4月15日   

    新闻文章摘要数据集 数据来源:互联网公开数据 标签:新闻,文章,摘要,标题,超链接,内容,文本分析,自然语言处理 数据概述: 本数据集包含了新闻文章的标题、超链接和正文内容。数据集覆盖了广泛的新闻来源,提供了丰富的文本信息,适用于新闻分析、文本摘要生成和自然语言处理等多种应用场景。 数据用途概述:...
    packageimg
  • 恐怖小说作者识别数据集

    2025年4月15日   

    恐怖小说作者识别数据集 数据来源:互联网公开数据 标签:恐怖小说,作者识别,文本分析,机器学习,自然语言处理 数据概述: 本数据集包含多篇由不同恐怖小说作者撰写的文本样本,旨在用于作者识别任务。数据集涵盖了多位著名恐怖小说作者的作品,每篇文本均标注了相应的作者身份,为研究和开发作者识别模型提供了丰富的训练和测试材料。 数据用途概述:...
    packageimg
  • 权力的游戏剧集人物关系与剧情文本分析数据集

    2025年4月15日   

    权力的游戏剧集人物关系与剧情文本分析数据集 数据来源:互联网公开数据 标签:权力的游戏,人物关系,剧情分析,文本分析,电视剧,数据挖掘,美剧 数据概述: 本数据集基于HBO出品的电视剧《权力的游戏》(Game of Thrones)构建,主要围绕剧集的人物角色和剧情文本展开。数据来源于从事文本分析领域的专业团队,旨在为相关研究提供基础。 数据用途概述:...
    packageimg
  • 经典情景喜剧老友记剧本对白数据集-全季

    2025年4月15日   

    经典情景喜剧老友记剧本对白数据集-全季 数据来源:互联网公开数据 标签:老友记,FRIENDS,剧本,对白,角色,情景喜剧,影视,文化,娱乐,文本分析 数据概述:...
    packageimg
  • Gemma7B重写新闻数据集

    2025年4月15日   

    Gemma7B重写新闻数据集 数据来源:互联网公开数据 标签:新闻重写,自然语言处理,文本生成,机器学习,数据集,文本分析 数据概述: 本数据集包含使用Gemma 7B模型重写的新闻文章集合。数据集涵盖了广泛的主题和来源,提供了原始新闻内容及其对应的Gemma...
    packageimg
  • Inshorts新闻摘要与推荐系统构建数据集-时间不限

    2025年4月15日   

    Inshorts新闻摘要与推荐系统构建数据集-时间不限 数据来源:互联网公开数据 标签:新闻摘要,推荐系统,文本分析,自然语言处理,新闻数据,网络抓取,内容推荐 数据概述: 本数据集是通过网络爬虫从新闻网站Inshorts上抓取的新闻数据。Inshorts以提供短摘要新闻而闻名,本数据集包含了网站上发布的新闻摘要及相关信息。 数据包含以下四个字段:...
    packageimg
  • Reddit占星学讨论社区帖子与评论数据集

    2025年4月15日   

    Reddit占星学讨论社区帖子与评论数据集 数据来源:互联网公开数据 标签:占星学,Reddit,社交媒体,文本分析,情感分析,主题挖掘,社区,讨论,帖子,评论 数据概述: 本数据集收录了来自Reddit占星学(r/Astrology)子版块的帖子和评论数据,数据未经过滤。 数据通过Python Reddit API...
    packageimg
  • 印度互联网仇恨言论识别数据集2023

    2025年4月15日   

    印度互联网仇恨言论识别数据集2023 数据来源:互联网公开数据 标签:仇恨言论,内容审核,文本分析,社交媒体,自然语言处理,人工智能,互联网治理 数据概述: 本数据集用于识别文本输入中是否包含仇恨言论,涵盖了大量的互联网文本样本。数据集旨在为开发和评估仇恨言论检测模型提供训练数据基础,支持对不恰当和有害在线内容进行有效管理。 数据用途概述:...
    packageimg
  • 阿富汗情感数据集SD4A

    2025年4月15日   

    阿富汗情感数据集SD4A 数据来源:互联网公开数据 标签:阿富汗,情感分析,社交媒体,推特,数据挖掘,文本分析,社会情绪 数据概述: 本数据集名为SD4A,通过使用Twitter...
    packageimg
  • 旁遮普语沙木基语料库词频统计数据集

    2025年4月15日   

    旁遮普语沙木基语料库词频统计数据集 数据来源:互联网公开数据 标签:旁遮普语,沙木基语,语言学,词频统计,文本分析,自然语言处理,语料库 数据概述: 本数据集基于从互联网收集的旁遮普语沙木基语料库构建而成,包含单字词(unigram)和双字词(bigram)的频率统计信息。 数据文件包括: unigram-p.csv:包含50,000个单字词及其词频。...
    packageimg
  • 时尚诺瓦FashionNova用户评论数据集

    2025年4月15日   

    时尚诺瓦FashionNova用户评论数据集 数据来源:互联网公开数据 标签:时尚诺瓦,用户评论,情感分析,电商,零售,客户满意度,市场调研,文本分析 数据概述: 本数据集包含了来自知名在线服装零售商时尚诺瓦(Fashion...
    packageimg
  • 抑郁用户报告数据集2023

    2025年4月15日   

    抑郁用户报告数据集2023 数据来源:互联网公开数据 标签:抑郁,用户报告,Reddit,文本分析,情感检测,主题建模,机器学习,心理健康 数据概述:...
    packageimg
  • 全面生物医学实体识别数据集

    2025年4月15日   

    全面生物医学实体识别数据集 数据来源:互联网公开数据 标签:生物医学,实体识别,自然语言处理,机器学习,药物描述,专利摘要,文本分析 数据概述:...
    packageimg
  • Phoronix科技新闻文章标题与内容数据集

    2025年4月15日   

    Phoronix科技新闻文章标题与内容数据集 数据来源:互联网公开数据 标签:科技新闻,NLP,文本分析,自然语言处理,新闻文章,Phoronix,文章标题,文本数据,数据挖掘 数据概述:...
    packageimg
  • 俄罗斯版Esquire杂志-我学到的-访谈语录数据集

    2025年4月15日   

    俄罗斯版Esquire杂志-我学到的-访谈语录数据集 数据来源:互联网公开数据 标签:Esquire,访谈,语录,俄罗斯,名人,文化,语言学,文本分析 数据概述: 本数据集收录了俄罗斯版Esquire杂志“我学到的”系列访谈内容。该系列访谈汇集了各行各业名人的生活感悟和人生经验。数据集包含访谈原文,为俄语。 数据用途概述:...
    packageimg