找到5,695个数据集

标签: 文本分析

过滤结果
  • 英语学习资源网站文本语料库数据集-OneStopEnglish-2024

    2025年4月15日   

    英语学习资源网站文本语料库数据集-OneStopEnglish-2024 数据来源:互联网公开数据 标签:英语学习,文本语料库,语言学习,英语教学,文本分析,语料库,词汇,语法,阅读理解 数据概述: 本数据集包含OneStopEnglish网站提供的文本语料库,以CSV格式存储。语料库中的文本内容涵盖了小学、初中、高中不同英语水平的材料。...
    packageimg
  • 来自X的仇恨言论和冒犯性语言数据集

    2025年4月15日   

    来自X的仇恨言论和冒犯性语言数据集 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体数据,文本分析,自然语言处理,三元分类,数据清理 数据概述: 本数据集通过名为“Instant Data...
    packageimg
  • 职位描述分类任务数据集

    2025年4月15日   

    职位描述分类任务数据集 数据来源:互联网公开数据 标签:职位描述,分类任务,机器学习,自然语言处理,文本分析,人力资源管理 数据概述: 本数据集包含多个职位描述的文本样本,每个样本均标注有对应的分类标签。数据集内容涵盖各种行业和岗位的职位描述,旨在为构建职位描述分类任务提供高质量的训练数据。 数据用途概述:...
    packageimg
  • 英语俳句与短诗数据集

    2025年4月15日   

    英语俳句与短诗数据集 数据来源:互联网公开数据 标签:俳句,短诗,英语诗歌,语言文学,诗歌分析,数据集,文本分析 数据概述:...
    packageimg
  • 降世神通-最后的气宗全集剧本数据集

    2025年4月15日   

    降世神通-最后的气宗全集剧本数据集 数据来源:互联网公开数据 标签:降世神通,角色台词,文本分析,剧情研究,娱乐产业,文化研究 数据概述 本数据集包含了热门动画剧集《降世神通:最后的气宗》(Avatar: The Last Airbender)的完整剧本内容,数据来源为 fandom wiki...
    packageimg
  • 推特情感分析数据集2021

    2025年4月15日   

    推特情感分析数据集2021 数据来源:互联网公开数据 标签:推特,情感分析,社交媒体,文本分析,自然语言处理,机器学习 数据概述:...
    packageimg
  • Reddit印度板块帖子标签预测数据集-2024

    2025年4月15日   

    Reddit印度板块帖子标签预测数据集-2024 数据来源:互联网公开数据 标签:Reddit,印度,社交媒体,文本分析,机器学习,自然语言处理,标签预测,内容分类,PRAW API 数据概述: 本数据集来源于Reddit社交平台上的r/india子版块,通过PRAW...
    packageimg
  • 科学文献关键词分析数据集1963-2021

    2025年4月15日   

    科学文献关键词分析数据集1963-2021 数据来源:互联网公开数据 标签:科学文献,关键词,作者关键词,自动关键词,Web of Science,文本分析,自然语言处理 数据概述: 本数据集包含了从Web of Science...
    packageimg
  • 土耳其社交媒体文本数据集

    2025年4月15日   

    土耳其社交媒体文本数据集 数据来源:互联网公开数据 标签:社交媒体,文本分析,网络欺凌,情感分析,自然语言处理,土耳其语,机器学习 数据概述:...
    packageimg
  • 俄罗斯敏感话题不适当言论数据集

    2025年4月15日   

    俄罗斯敏感话题不适当言论数据集 数据来源:互联网公开数据 标签:敏感话题,不适当言论,网络言论,俄罗斯,自然语言处理,文本分析,社会学研究 数据概述: 本数据集专注于收集和分析涉及敏感话题的不适当言论,这些言论可能引起读者的不适或损害发言者的声誉。不适当性概念接近于毒性,但明确的毒性和明显的...
    packageimg
  • 坦桑尼亚斯瓦希里语新闻分类数据集

    2025年4月15日   

    坦桑尼亚斯瓦希里语新闻分类数据集 数据来源:互联网公开数据 标签:斯瓦希里语,新闻分类,坦桑尼亚,语言处理,数据竞赛,文本分析,媒体研究 数据概述:...
    packageimg
  • 写作质量分析文本变化补充数据集

    2025年4月15日   

    写作质量分析文本变化补充数据集 数据来源:互联网公开数据 标签:写作质量,文本变化,竞赛数据,学术研究,自然语言处理,数据补充,文本分析 数据概述:...
    packageimg
  • 圣经人物经文描述数据集

    2025年4月15日   

    圣经人物经文描述数据集 数据来源:互联网公开数据 标签:圣经,人物,经文,宗教研究,历史分析,文化研究,文本分析 数据概述: 本数据集名为BibleData-PersonVerse,提供了《圣经》中提及的众多个体的全面信息。数据集包含了每个个体的独特标识符(对应于BibleData-Person和BibleData-...
    packageimg
  • 新闻文章摘要数据集

    2025年4月15日   

    新闻文章摘要数据集 数据来源:互联网公开数据 标签:新闻,文章,摘要,标题,超链接,内容,文本分析,自然语言处理 数据概述: 本数据集包含了新闻文章的标题、超链接和正文内容。数据集覆盖了广泛的新闻来源,提供了丰富的文本信息,适用于新闻分析、文本摘要生成和自然语言处理等多种应用场景。 数据用途概述:...
    packageimg
  • 恐怖小说作者识别数据集

    2025年4月15日   

    恐怖小说作者识别数据集 数据来源:互联网公开数据 标签:恐怖小说,作者识别,文本分析,机器学习,自然语言处理 数据概述: 本数据集包含多篇由不同恐怖小说作者撰写的文本样本,旨在用于作者识别任务。数据集涵盖了多位著名恐怖小说作者的作品,每篇文本均标注了相应的作者身份,为研究和开发作者识别模型提供了丰富的训练和测试材料。 数据用途概述:...
    packageimg
  • 权力的游戏剧集人物关系与剧情文本分析数据集

    2025年4月15日   

    权力的游戏剧集人物关系与剧情文本分析数据集 数据来源:互联网公开数据 标签:权力的游戏,人物关系,剧情分析,文本分析,电视剧,数据挖掘,美剧 数据概述: 本数据集基于HBO出品的电视剧《权力的游戏》(Game of Thrones)构建,主要围绕剧集的人物角色和剧情文本展开。数据来源于从事文本分析领域的专业团队,旨在为相关研究提供基础。 数据用途概述:...
    packageimg
  • 经典情景喜剧老友记剧本对白数据集-全季

    2025年4月15日   

    经典情景喜剧老友记剧本对白数据集-全季 数据来源:互联网公开数据 标签:老友记,FRIENDS,剧本,对白,角色,情景喜剧,影视,文化,娱乐,文本分析 数据概述:...
    packageimg
  • Gemma7B重写新闻数据集

    2025年4月15日   

    Gemma7B重写新闻数据集 数据来源:互联网公开数据 标签:新闻重写,自然语言处理,文本生成,机器学习,数据集,文本分析 数据概述: 本数据集包含使用Gemma 7B模型重写的新闻文章集合。数据集涵盖了广泛的主题和来源,提供了原始新闻内容及其对应的Gemma...
    packageimg
  • Inshorts新闻摘要与推荐系统构建数据集-时间不限

    2025年4月15日   

    Inshorts新闻摘要与推荐系统构建数据集-时间不限 数据来源:互联网公开数据 标签:新闻摘要,推荐系统,文本分析,自然语言处理,新闻数据,网络抓取,内容推荐 数据概述: 本数据集是通过网络爬虫从新闻网站Inshorts上抓取的新闻数据。Inshorts以提供短摘要新闻而闻名,本数据集包含了网站上发布的新闻摘要及相关信息。 数据包含以下四个字段:...
    packageimg
  • Reddit占星学讨论社区帖子与评论数据集

    2025年4月15日   

    Reddit占星学讨论社区帖子与评论数据集 数据来源:互联网公开数据 标签:占星学,Reddit,社交媒体,文本分析,情感分析,主题挖掘,社区,讨论,帖子,评论 数据概述: 本数据集收录了来自Reddit占星学(r/Astrology)子版块的帖子和评论数据,数据未经过滤。 数据通过Python Reddit API...
    packageimg