找到66个数据集

标签: 文本

过滤结果
  • 自然语言处理多领域对话数据集UltraChat-200K-thedevastator

    2025年6月4日 30 110 70

    自然语言处理多领域对话数据集UltraChat-200K-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,对话,生成,训练,文本,语言模型,NLG,语料库 数据概述:...
    packageimg
  • Jigsaw竞赛英语翻译文本数据集

    2025年6月1日 30 132 3

    Jigsaw竞赛英语翻译文本数据集 数据来源:互联网公开数据 标签:Jigsaw, 翻译, 文本, 英语, 自然语言处理, 文本分析, 机器学习, 竞赛, 负面评论, 错误标识 数据概述:...
    packageimg
  • 古腾堡诗歌项目诗歌文本数据集-terminate9298

    2025年6月1日 30 165 145

    古腾堡诗歌项目诗歌文本数据集-terminate9298 数据来源:互联网公开数据 标签:诗歌,文学,文本,古腾堡项目,语料库,自然语言处理,文本分析,诗歌创作,情感分析 数据概述: 本数据集收录了来自古腾堡项目(Gutenberg Project)的诗歌文本,包含2703086行句子。数据集由Allison...
    packageimg
  • 乌尔都语印刷文本图像识别扩展数据集-MMU-Extension-22-tayyabnasir22

    2025年6月1日 30 97 38

    乌尔都语印刷文本图像识别扩展数据集-MMU-Extension-22-tayyabnasir22 数据来源:互联网公开数据 标签:乌尔都语,OCR,文本识别,印刷文本,深度学习,机器学习,图像,文本,语言学,计算机视觉 数据概述: 本数据集是MMU-OCR-21数据集的扩展,旨在为印刷乌尔都语光学字符识别(OCR)任务提供一个公开可用的数据集。MMU-...
    packageimg
  • 巴西新闻文章文本数据集-新闻内容分析-2024

    2025年5月31日 30 176 170

    巴西新闻文章文本数据集-新闻内容分析-2024 数据来源:互联网公开数据 标签:巴西,新闻,文本,自然语言处理,NLP,金融,信息提取,时事,政治,经济,社会 数据概述: 本数据集包含来自巴西联邦数字图书馆的新闻文章文本,旨在为自然语言处理(NLP)模型构建提供可靠且一致的数据源。数据集涵盖了各种主题的新闻报道,为研究人员提供了丰富的文本数据。...
    packageimg
  • 孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan

    2025年5月31日 30 75 69

    孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan 数据来源:互联网公开数据 标签:孟加拉语,新闻,文本,自然语言处理,NLP,文本分析,孟加拉国,BD-Pratidin,语料库 数据概述: 本数据集包含了从2017年12月13日至2020年9月9日期间,孟加拉国日报(BD-...
    packageimg
  • 老挝语-越南语机器翻译语料库越南语文本数据集-zuydang

    2025年5月31日 30 70 34

    老挝语-越南语机器翻译语料库越南语文本数据集-zuydang 数据来源:互联网公开数据 标签:机器翻译,语料库,老挝语,越南语,文本,语言学,自然语言处理,ALT 数据概述: 本数据集是从ALT(亚洲语言技术)项目中提取的老挝语-...
    packageimg
  • 多模态文本图像生成数据集-2023-alenic

    2025年5月31日 30 101 73

    多模态文本图像生成数据集-2023-alenic 数据来源:互联网公开数据 标签:多模态,文本,图像,生成,数据集,分类,预测,模态分析,目标识别 数据概述:...
    packageimg
  • 视觉问答图像理解数据集-图像与自然语言结合-通用

    2025年5月30日 30 52 12

    视觉问答图像理解数据集-图像与自然语言结合-通用 数据来源:互联网公开数据 标签:视觉问答,图像理解,自然语言处理,计算机视觉,人工智能,图像,文本,问答,多模态,场景理解 数据概述: 本数据集是用于视觉问答(VQA,Visual Question Answering)任务的通用数据集。VQA...
    packageimg
  • 多模态情感分析数据集MultimodalSentimentAnalysisDataset-dmitryml

    2025年5月29日 30 97 79

    多模态情感分析数据集MultimodalSentimentAnalysisDataset-dmitryml 数据来源:互联网公开数据 标签:情感分析, 多模态, 文本, 图像, 语音, 情感识别, 机器学习, 数据集 数据概述: 该数据集包含来自多个来源的多模态情感数据,记录了与情感相关的文本、图像和语音信息,用于情感分析和多模态研究。主要特征如下:...
    packageimg
  • 增强型多模态情感识别数据集EnhancedMulti-modalEmotionRecognitionDataset-alexandreazouri

    2025年5月28日 30 202 174

    增强型多模态情感识别数据集EnhancedMulti-modalEmotionRecognitionDataset-alexandreazouri 数据来源:互联网公开数据 标签:情感识别,多模态,数据集,语音,文本,视频,机器学习,人工智能 数据概述: 该数据集包含增强的多模态情感识别数据,旨在提升情感分析的准确性和鲁棒性。主要特征如下: 时间跨度:...
    packageimg
  • 堤坝巡逻文本数据集DamPatrolTextCorpus-tunphmnguynanh

    2025年5月28日 30 2 0

    堤坝巡逻文本数据集DamPatrolTextCorpus-tunphmnguynanh 数据来源:互联网公开数据 标签:堤坝, 巡逻, 防洪, 文本, 法律法规, 自然语言处理, 文本分析, 越南语 数据概述: 该数据集包含来自越南官方文件的文本数据,记录了关于堤坝巡逻和防洪的相关规定和说明。主要特征如下:...
    packageimg
  • 医学文本嵌入数据集-kwyrob

    2025年5月22日 30 27 7

    医学文本嵌入数据集-kwyrob 数据来源:互联网公开数据 标签:医学,文本,嵌入,自然语言处理,深度学习,医学信息学,生物医学,语义分析 数据概述: 该数据集包含用于医学文本嵌入的数据,旨在为医学领域的自然语言处理任务提供支持。主要特征如下: 时间跨度:数据记录的时间范围不限,涵盖了医学文献、病例报告、临床试验摘要等多种来源。...
    packageimg
  • 数学问题解答文本数据集MathProblemSolvingTextDataset-ibtida01

    2025年5月19日 30 53 41

    数学问题解答文本数据集MathProblemSolvingTextDataset-ibtida01 数据来源:互联网公开数据 标签:数学,问题解答,文本,自然语言处理,竞赛,推理,计算,数据集 数据概述: 该数据集包含来自数学竞赛的问题文本及解答。主要特征如下: 时间跨度:数据未标明具体时间,视作静态数据集使用。...
    packageimg
  • 大规模多模态社交媒体推文数据集MMHS150KTweetImageTextDataset-raghav0210

    2025年5月19日 30 149 40

    大规模多模态社交媒体推文数据集MMHS150KTweetImageTextDataset-raghav0210 数据来源:互联网公开数据 标签:社交媒体,推文,图像,文本,多模态,自然语言处理,计算机视觉,机器学习,情感分析 数据概述:该数据集包含来自Twitter的推文数据,记录了推文的文本内容和对应的图像。主要特征如下:...
    packageimg
  • 宝可梦游戏文本描述数据集PokemonGameTextDescriptionDataset-academic8rb

    2025年5月17日 30 86 56

    宝可梦游戏文本描述数据集PokemonGameTextDescriptionDataset-academic8rb 数据来源:互联网公开数据 标签:宝可梦, 游戏, 文本, 描述, 自然语言处理, 语料库, 文本挖掘, 数据分析 数据概述: 该数据集包含来自宝可梦游戏系列的文本描述数据,记录了不同宝可梦的详细介绍性文本。主要特征如下:...
    packageimg
  • 虚假新闻文本分类数据集FakeNewsTextClassificationDataset-eiosus

    2025年5月13日 30 181 152

    虚假新闻文本分类数据集FakeNewsTextClassificationDataset-eiosus 数据来源:互联网公开数据 标签:虚假新闻, 文本分类, 新闻分析, 舆情监测, 机器学习, 自然语言处理, 标题, 文本 数据概述: 该数据集包含来自互联网的新闻文章,记录了标题和正文内容,并标注了文章的真实性。主要特征如下:...
    packageimg
  • 安然公司邮件语料库EnronEmailCorpus数据集-minalray

    2025年5月12日 30 56 20

    安然公司邮件语料库EnronEmailCorpus数据集-minalray 数据来源:互联网公开数据 标签:邮件, 文本, 语料库, 自然语言处理, 金融, 能源, 文本挖掘, 商业 数据概述: 该数据集包含来自安然公司(Enron Corporation)内部员工的电子邮件数据,记录了公司运营期间的通信内容。主要特征如下:...
    packageimg
  • 电商平台商品信息数据集-sauravmishraa

    2025年5月7日 30 55 45

    电商平台商品信息数据集-sauravmishraa 数据来源:互联网公开数据 标签:电商,商品,产品,描述,属性,文本,数据分析 数据概述: 本数据集包含了电商平台上商品的详细信息,主要特征如下: PRODUCT_ID:商品唯一标识符。 TITLE:商品的标题,提供商品的基本信息。...
    packageimg
  • 电影剧情问答数据集Wikipedia-IMDb-thedevastator

    2025年5月4日 30 61 34

    电影剧情问答数据集Wikipedia-IMDb-thedevastator 数据来源:互联网公开数据 标签:问答,自然语言处理,电影,剧情,Wikipedia,IMDb,文本,机器阅读理解,语义理解 数据概述:...
    packageimg