找到75个数据集

标签: 文本

过滤结果
  • 多模态聚类数据集MM-Cluster-1-busedemir

    2025年4月24日   

    多模态聚类数据集MM-Cluster-1-busedemir 数据来源:互联网公开数据 标签:多模态数据,聚类分析,机器学习,图像,文本,音频,数据挖掘,模式识别 数据概述: 该数据集包含多模态数据,用于多模态聚类任务。主要特征如下: 时间跨度:数据收集时间不明确。 地理范围:数据来源不明确。 数据维度:数据集包括图像,文本和音频三种模态的数据。...
    packageimg
  • 英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608

    2025年4月24日   

    英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608 数据来源:互联网公开数据 标签:新闻,文本,数据集,自然语言处理,机器学习,文本分类,信息检索,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文章文本,涵盖多个新闻类别。主要特征如下:...
    packageimg
  • 俄罗斯幽默笑话文本数据集

    2025年4月24日   

    俄罗斯幽默笑话文本数据集 数据来源:互联网公开数据 标签:俄罗斯,幽默,笑话,文本,语言学,文化,娱乐 数据概述: 本数据集收录了来自俄罗斯笑话聚合网站的笑话文本。这些笑话内容涵盖了广泛的主题和风格,反映了俄罗斯独特的幽默文化。数据集由IgorVolochay在Hugging Face上发布,原始数据来源于公开的网络资源。 数据用途概述:...
    packageimg
  • 上古卷轴5-天际省书籍信息数据集-aadamg

    2025年4月24日   

    上古卷轴5-天际省书籍信息数据集-aadamg 数据来源:互联网公开数据 标签:游戏,上古卷轴,天际省,书籍,文本,游戏数据,角色扮演,UESP 数据概述:...
    packageimg
  • 英国广播公司新闻文本数据集BBCNewsTextDataset-avishi

    2025年4月23日   

    英国广播公司新闻文本数据集BBCNewsTextDataset-avishi 数据来源:互联网公开数据 标签:新闻,文本,数据集,自然语言处理,文本分类,机器学习,新闻报道,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文章文本数据,用于文本分类和自然语言处理任务。主要特征如下:...
    packageimg
  • 特朗普总统政治集会演讲稿数据集-2017-2020年-tanpengshi

    2025年4月22日   

    特朗普总统政治集会演讲稿数据集-2017-2020年-tanpengshi 数据来源:互联网公开数据 标签:特朗普,政治,集会,演讲稿,文本,NLP,自然语言处理,美国大选,言论分析,数据挖掘 数据概述:...
    packageimg
  • 小说数据集

    2025年4月22日   

    小说数据集 数据来源:互联网公开数据 标签:小说,书籍,文学,出版,作者,价格,文本,国际标准书号 数据概述: 本数据集包含从Idefix平台收集的书籍信息,采集时间为2022年12月12日。数据集包含多个字段,涵盖书籍的基本属性和详细信息,适用于文学研究、出版行业分析以及相关应用开发。以下是数据字段的详细说明: Index:书籍的唯一标识索引。...
    packageimg
  • 维韦卡南达大师全集文本数据集-atmabodha

    2025年4月22日   

    维韦卡南达大师全集文本数据集-atmabodha 数据来源:互联网公开数据 标签:维韦卡南达,Swami Vivekananda,印度哲学,宗教,灵性,演讲,著作,文本,哲学,文化 数据概述: 本数据集包含了维韦卡南达大师(Swami...
    packageimg
  • 出租女友女主角一之濑千鹤角色对话数据集-xandercubbin

    2025年4月22日   

    出租女友女主角一之濑千鹤角色对话数据集-xandercubbin 数据来源:互联网公开数据 标签:动漫,角色,对话,文本,一之濑千鹤,出租女友,情感分析,自然语言处理 数据概述:...
    packageimg
  • Reddit社交媒体多模态内容交互数据集-实时-aneesh10

    2025年4月22日   

    Reddit社交媒体多模态内容交互数据集-实时-aneesh10 数据来源:互联网公开数据 标签:Reddit,社交媒体,多模态,文本,图像,视频,音频,内容分析,用户行为 数据概述: 本数据集来源于Reddit平台,通过Python Reddit API Wrapper(PRAW)的封装工具reddit-multimodal-...
    packageimg
  • Unicode字符集区块编码及名称数据集-12-1-0-adamboulad

    2025年4月22日   

    Unicode字符集区块编码及名称数据集-12-1-0-adamboulad 数据来源:互联网公开数据 标签:Unicode,字符集,编码,区块,字符,文本,数据 数据概述: 本数据集收录了Unicode...
    packageimg
  • 新闻真伪辨别文本分类数据集-neupane9sujal

    2025年4月22日   

    新闻真伪辨别文本分类数据集-neupane9sujal 数据来源:互联网公开数据 标签:新闻,真伪,假新闻,文本分类,自然语言处理,机器学习,标题,文本,标签 数据概述: 本数据集包含新闻文章的标题、正文以及真伪标签,可用于进行假新闻检测任务。数据集旨在帮助初学者学习文本分类技术,了解如何利用机器学习模型识别新闻的真伪。 数据包含以下字段:...
    packageimg
  • 短视频平台用户互动数据集1963-2021-programmer3

    2025年4月21日   

    短视频平台用户互动数据集1963-2021-programmer3 数据来源:互联网公开数据 标签:短视频,用户互动,YouTube Shorts,TikTok,Instagram Reels,数据集,多媒体特征,文本,图像,音频,用户行为 数据概述: 本数据集通过网络爬虫技术从流行的短视频平台(如YouTube...
    packageimg
  • 新闻真伪辨别数据集-标题文本与标签-2024-amirmotefaker

    2025年4月21日   

    新闻真伪辨别数据集-标题文本与标签-2024-amirmotefaker 数据来源:互联网公开数据 标签:新闻,真伪,假新闻,文本分析,自然语言处理,机器学习,文本分类,标题,文本 数据概述: 本数据集旨在用于新闻真伪辨别研究与实践,包含了大量新闻标题、正文文本及对应的真伪标签。 数据集共包含7796条新闻样本,每条样本由四个字段构成:...
    packageimg
  • 数据2020年美国总统大选演讲文本数据集-imuhammad

    2025年4月21日   

    2020年美国总统大选演讲文本数据集-imuhammad 数据来源:互联网公开数据 标签:美国总统选举,演讲,政治,2020,文本,选战,竞选,辩论,采访 数据概述:...
    packageimg
  • OpenMoji表情符号图像与描述数据集

    2025年4月21日   

    OpenMoji表情符号图像与描述数据集 数据来源:互联网公开数据 标签:OpenMoji,表情符号,图像,文本,Unicode,描述,视觉,文化,交流 数据概述: 本数据集基于OpenMoji项目,收录了丰富的表情符号图像及相关描述信息。数据源自Kaggle平台,并遵循知识共享署名-...
    packageimg
  • TED演讲文本主题分析与文本分割数据集-2020年5月1日

    2025年4月18日   

    TED演讲文本主题分析与文本分割数据集-2020年5月1日 数据来源:互联网公开数据 标签:TED演讲,文本,演讲,文本分割,自然语言处理,机器学习,主题分析,演讲稿,NLP 数据概述: 本数据集包含了从TED.com网站抓取的TED演讲稿文本,每个演讲稿被分割成段落。演讲视频列表来源于“TED Talks Transcripts for...
    packageimg
  • 泰卢固语新闻文本数据集-语言模型训练-合并数据集

    2025年4月17日   

    泰卢固语新闻文本数据集-语言模型训练-合并数据集 数据来源:互联网公开数据 标签:泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据 数据概述: 本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成,整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容,涵盖了各种主题和风格。 数据用途概述:...
    packageimg
  • TED演讲文本数据集-演讲内容与结构分析-2024年9月12日

    2025年4月16日   

    TED演讲文本数据集-演讲内容与结构分析-2024年9月12日 数据来源:互联网公开数据 标签:TED演讲,文本,转录,演讲稿,自然语言处理,文本分析,主题分割,内容分析 数据概述:...
    packageimg
  • 假名500人数据集

    2025年4月15日   

    假名500人数据集 数据来源:互联网公开数据 标签:假名数据,随机生成,个人信息,电话,电子邮件,地址,国家,区域,邮政编码,文本,数字范围,货币,字母数字 数据概述:...
    packageimg