找到16,249个数据集

标签: 自然语言处理

过滤结果
  • LLM生成文本检测竞赛数据集

    2025年4月15日   

    LLM生成文本检测竞赛数据集 数据来源:互联网公开数据 标签:LLM生成文本,人工智能检测,竞赛数据,自然语言处理,文本分析 该数据集专为 “LLM - Detect AI Generated Text” Kaggle 竞赛而构建,内容由大型语言模型(LLMs)生成的英文文章组成。数据基于公开可用的外部语料改写生成,但其原始数据并未包含在 DAIGT...
    packageimg
  • 自杀干预情感分析数据集

    2025年4月15日   

    自杀干预情感分析数据集 数据来源:互联网公开数据 标签:自杀干预,情感分析,心理健康,文本处理,TF-IDF,自然语言处理,情绪分类 数据概述: 本数据集基于“suicide-watch”数据集进行处理和增强,包含经过清洗的文本数据、TF-...
    packageimg
  • 维基百科名人传记翻译数据集

    2025年4月15日   

    维基百科名人传记翻译数据集 数据来源:互联网公开数据 标签:机器翻译,性别准确性,上下文信息,英文,西班牙文,德文,语言处理,数据集分析 数据概述:...
    packageimg
  • 电影评论情感分析数据集-Top100电影-评论数据

    2025年4月15日   

    电影评论情感分析数据集-Top100电影-评论数据 数据来源:互联网公开数据 标签:情感分析, 电影评论, 自然语言处理, NLP, 影评, 文本分析, 情感极性, 机器学习, 电影, 评论 数据概述: 本数据集旨在分析大规模文本输入的情感倾向,主要聚焦于对Top...
    packageimg
  • 无人机购买与客户满意度数据集

    2025年4月15日   

    无人机购买与客户满意度数据集 数据来源:互联网公开数据 标签:无人机,消费者,满意度,评论,技术问题,客户服务 数据概述:...
    packageimg
  • MeltUI开源前端框架代码库数据集

    2025年4月15日   

    MeltUI开源前端框架代码库数据集 数据来源:互联网公开数据 标签:前端,UI,代码库,开源,Melt UI,JavaScript,Svelte,组件,开发,编程,软件工程 数据概述: 本数据集包含Melt UI前端框架的源代码,经过预处理,可以直接用于模型提示。Melt...
    packageimg
  • arXiv论文标题-摘要与主题分类数据集-适用于自然语言处理项目

    2025年4月15日   

    arXiv论文标题-摘要与主题分类数据集-适用于自然语言处理项目 数据来源:互联网公开数据 标签:arXiv,论文,标题,摘要,主题分类,自然语言处理,NLP,文本分析,主题建模 数据概述:...
    packageimg
  • 古兰经语料库1963-2021

    2025年4月15日   

    古兰经语料库1963-2021 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,宗教文本,机器翻译,文本生成,文本摘要,宗教研究 数据概述: 本数据集收录了古兰经的完整文本,涵盖了从1963年至2021年的版本。数据包含了古兰经的每一条经文,以及相应的章节和节编号,为宗教研究、文本分析和自然语言处理提供了重要的基础材料。 数据用途概述:...
    packageimg
  • 林肯公园YouTube视频评论情感分析数据集

    2025年4月15日   

    林肯公园YouTube视频评论情感分析数据集 数据来源:互联网公开数据 标签:林肯公园,YouTube,视频,评论,情感分析,自然语言处理,用户反馈,音乐,社交媒体,文本数据 数据概述: 本数据集包含两部分数据,分别关于YouTube上林肯公园(Linkin...
    packageimg
  • 哥伦比亚观察家报推文文本数据集-2019至今

    2025年4月15日   

    哥伦比亚观察家报推文文本数据集-2019至今 数据来源:互联网公开数据 标签:推文,社交媒体,新闻,文本分析,自然语言处理,西班牙语,哥伦比亚,舆情分析 数据概述: 本数据集收录了2019年至今哥伦比亚报纸《观察家报》(El Espectador)的推文文本数据。该数据集源于微软 Power Automate 和 Power BI...
    packageimg
  • GRE1300最常用词汇数据集

    2025年4月15日   

    GRE1300最常用词汇数据集 数据来源:互联网公开数据 标签:GRE,词汇,难度评估,自然语言处理,教育,学习资源 数据概述: 本数据集收录了1300个最常用的GRE词汇,这些词汇从一个在线词汇网站中抓取。数据集使用Beautiful Soup (BS4)和Selenium结合Chrome...
    packageimg
  • 中文机器阅读理解数据集2018

    2025年4月15日   

    中文机器阅读理解数据集2018 数据来源:互联网公开数据 标签:机器阅读理解,中文,NLP,问答系统,文本理解,文本推理,语言模型 数据概述:...
    packageimg
  • Reddit平台边缘型人格障碍讨论帖文数据集

    2025年4月15日   

    Reddit平台边缘型人格障碍讨论帖文数据集 数据来源:互联网公开数据 标签:边缘型人格障碍,BPD,Reddit,社交媒体,心理健康,情感障碍,用户体验,文本分析,情绪分析 数据概述: 本数据集包含5,879篇来自Reddit平台的帖子,这些帖子讨论了边缘型人格障碍(BPD, Borderline Personality...
    packageimg
  • 爱丁堡AI第二学期研讨会1大学笔记数据集

    2025年4月15日   

    爱丁堡AI第二学期研讨会1大学笔记数据集 数据来源:互联网公开数据 标签:爱丁堡AI,研讨会,大学笔记,RAG,自然语言处理 数据概述: 本数据集包含爱丁堡AI第二学期研讨会1的大学笔记,旨在支持研讨会期间的学习和讨论。数据集涵盖了研讨会的主题内容、讨论要点以及相关资料链接等关键信息,为学生和研究人员提供了深入了解研讨会主题的资源。 数据用途概述:...
    packageimg
  • 在线评论欺骗检测数据集2023

    2025年4月15日   

    在线评论欺骗检测数据集2023 数据来源:互联网公开数据 标签:在线评论,欺骗检测,文本分析,自然语言处理,机器学习,数据挖掘 数据概述: 本数据集来源于Kaggle,包含了用于欺骗性意见垃圾邮件检测的评论文本记录。数据集包括真实的和欺骗性的在线评论,每个评论都经过标注,可以帮助研究人员和开发者训练和评估文本分析及自然语言处理模型。 数据用途概述:...
    packageimg
  • 美国2020民主党辩论2实时推特分析数据集

    2025年4月15日   

    美国2020民主党辩论2实时推特分析数据集 数据来源:互联网公开数据 标签:2020年民主党辩论,实时推特,公共舆论,候选人表现,情感分析,自然语言处理,社交媒体分析 数据概述:...
    packageimg
  • 自杀行为与尝试数据集

    2025年4月15日   

    自杀行为与尝试数据集 数据来源:互联网公开数据 标签:自杀行为,风险因素,心理健康,社会学研究,文本分析,Reddit数据 数据概述:...
    packageimg
  • 印总理-民众之声-演讲数据集

    2025年4月15日   

    印总理-民众之声-演讲数据集 数据来源:互联网公开数据 标签:印度,莫迪,政府政策,民众之声,政治演讲,数据分析,社会趋势,政务公开 数据概述: 本数据集包含印度总理纳伦德拉·莫迪在“民众之声”(Mann Ki Baat)系列演讲中的内容记录,数据通过网络爬虫工具(Selenium 和...
    packageimg
  • 莎士比亚十四行诗菲律宾语翻译数据集

    2025年4月15日   

    莎士比亚十四行诗菲律宾语翻译数据集 数据来源:互联网公开数据 标签:莎士比亚,十四行诗,翻译,菲律宾语,Tagalog,文本数据,文学,语言学 数据概述: 本数据集包含威廉·莎士比亚十四行诗的ASCII文本,总共有超过2,450行。原文本从Andrej Karpathy的GitHub仓库minGPT复制而来。随后,我们使用ChatGPT...
    packageimg
  • 健康与心理调查问卷数据集

    2025年4月15日   

    健康与心理调查问卷数据集 数据来源:互联网公开数据 标签:健康调查,心理问卷,调查问卷,健康问题,心理问题,教育研究,文本生成 数据概述: 本数据集包含来自旧教科书和当前问卷中的健康相关问题。这些问题是仅作为基础设计的,旨在为后续的数据处理、分类和生成文本提供基础。数据集涵盖了广泛的身体健康和心理健康方面的调查问题,为研究和教育提供了丰富的资源。...
    packageimg