找到66个数据集

标签: 文本

过滤结果
  • Kurzgesagt无聊的开端YouTube视频字幕文本数据集

    2025年4月14日   

    Kurzgesagt无聊的开端YouTube视频字幕文本数据集 数据来源:互联网公开数据 标签:Kurzgesagt, YouTube, 字幕, 文本, 科学, 动画, 教育, 知识传播, 视频分析, 自然语言处理 数据概述: 本数据集包含Kurzgesagt - In a...
    packageimg
  • Vox今日解读播客节目文本数据集

    2025年4月14日   

    Vox今日解读播客节目文本数据集 数据来源:互联网公开数据 标签:播客,文本,新闻,时事,舆情分析,对话,VOX,Today Explained,转录 数据概述: 本数据集包含了Vox公司旗下播客节目“Today...
    packageimg
  • CommonLit阅读理解文章数据集

    2025年4月14日   

    CommonLit阅读理解文章数据集 数据来源:互联网公开数据 标签:阅读理解,文章,文本,教育,文学,CommonLit,标准对齐,学习资源 数据概述: 本数据集包含了CommonLit图书馆中抓取的、符合标准的免费文章和段落。这些文章来自知名作家,涵盖广泛的主题和文体,旨在为教育提供高质量的阅读材料。 数据用途概述:...
    packageimg
  • 不同的情感文本数据集 2025

    2025年2月18日   

    该数据集包含代表各种情绪状态的列,具体来说: 愤怒 无聊 平静 蔑视 厌恶 兴奋 恐惧 沮丧 快乐 中性 自豪 悲伤 惊讶 每一行可能代表记录这些情绪的实例或观察结果,可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态,从负面情绪(例如,愤怒、厌恶、悲伤)到正面情绪(例如,快乐、兴奋、自豪),以及中性或平衡状态(例如,平静、中性)。
    packageimg
  • 各类产业园区通用文库文本数据集

    2024年11月10日   

    包含了园区建设、运营、招商、服务、物业等多种场景共1000多个文件。 适用于:物流园区;科技园区;‌文化创意产业园区;‌农业园区;工业园区‌;电商园区‌;‌直播园区‌;孵化园‌;科创园…
    packageimg
  • SFT多轮中文对话文本数据集

    2024年11月10日   

    SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献,每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。 数据组成...
    packageimg