找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 社交媒体网络话题与文档聚类数据集2015-2019

    2025年4月15日   

    社交媒体网络话题与文档聚类数据集2015-2019 数据来源:互联网公开数据 标签:社交媒体网络,话题建模,文档聚类,推特,Reddit,政治讨论,主题标签,专家标注 数据概述:...
    packageimg
  • 七十士译本数据集

    2025年4月15日   

    七十士译本数据集 数据来源:互联网公开数据 标签:七十士译本,旧约圣经,希伯来文,希腊文,圣经翻译,NLP,自然语言处理,文本分析 数据概述:...
    packageimg
  • Mixtral8x7B模型生成AI写作检测竞赛模拟论文数据集

    2025年4月15日   

    Mixtral8x7B模型生成AI写作检测竞赛模拟论文数据集 数据来源:互联网公开数据 标签:人工智能,LLM,Mixtral,论文生成,写作风格模仿,AI检测,竞赛,文本数据 数据概述: 本数据集旨在用于大型语言模型(LLM)生成的文本检测,特别针对“AI写作检测”竞赛。数据集包含约4000篇由Mixtral...
    packageimg
  • 印尼新闻网站DetikNews每日头条数据集-2015年1月至2020年10月

    2025年4月15日   

    印尼新闻网站DetikNews每日头条数据集-2015年1月至2020年10月 数据来源:互联网公开数据 标签:印尼新闻,头条,DetikNews,新闻分析,自然语言处理,媒体研究,时间序列,印尼语 数据概述:...
    packageimg
  • 符号相关性数据集用于LLM

    2025年4月15日   

    符号相关性数据集用于LLM 数据来源:互联网公开数据 标签:LLM,符号相关性,知识语言关系,自然语言处理,机器学习,研究数据 数据概述:...
    packageimg
  • 健康营养师营养视频数据集

    2025年4月15日   

    健康营养师营养视频数据集 数据来源:互联网公开数据 标签:健康,营养,YouTube,视频分析,数据集,教育,健康教育 数据概述:...
    packageimg
  • 预处理抑郁数据集

    2025年4月15日   

    预处理抑郁数据集 数据来源:互联网公开数据 标签:抑郁症,心理健康,文本分析,情感分析,社交媒体,自然语言处理,情感状态 数据概述:...
    packageimg
  • 英语时态分类数据集

    2025年4月15日   

    英语时态分类数据集 数据来源:互联网公开数据 标签:英语时态,自然语言处理,机器学习,句子分类,语法分析 数据概述: 本数据集包含标注了相应时态类别的英文句子,适用于自然语言处理(NLP)和机器学习项目中的时态分类任务。每个条目包括一个句子及其对应的时态数值标签,覆盖了多种时态类型,为研究和开发提供了丰富的数据资源。 数据用途概述:...
    packageimg
  • 印度尼西亚COVID-19疫苗推文数据集

    2025年4月15日   

    印度尼西亚COVID-19疫苗推文数据集 数据来源:互联网公开数据 标签:COVID-19,疫苗,推文,社交媒体,印度尼西亚,情感分析,公共卫生 数据概述: 本数据集收录了2021年12月在印度尼西亚社交媒体上使用关键词"COVID...
    packageimg
  • LLM科学考试数据集-多样化数据源整合-竞赛专用

    2025年4月15日   

    LLM科学考试数据集-多样化数据源整合-竞赛专用 数据来源:互联网公开数据 标签:LLM, 科学考试, 数据集, 机器学习, 自然语言处理, 文本生成, 考试, 训练数据, MMLU, ChatGPT, Wikipedia 数据概述: 本数据集是为 LLM (大型语言模型, Large Language Model) 科学考试竞赛准备的, 包含了 6...
    packageimg
  • 巴西圣保罗市Foursquare用户评价情感分析数据集-2016

    2025年4月15日   

    巴西圣保罗市Foursquare用户评价情感分析数据集-2016 数据来源:互联网公开数据 标签:Foursquare, 社交媒体, 情感分析, 用户评价, 巴西, 圣保罗, 地理位置, 文本挖掘 数据概述: 本数据集包含来自Foursquare平台的巴西圣保罗市用户评价(tips)数据,用于情感分析研究。 数据集由Thais G....
    packageimg
  • 可疑推文数据集

    2025年4月15日   

    可疑推文数据集 数据来源:互联网公开数据 标签:可疑推文,网络欺凌,恐怖主义,威胁,社交媒体,网络安全,监督学习 数据概述:...
    packageimg
  • Reddit音乐分享与抑郁情绪关联数据集

    2025年4月15日   

    Reddit音乐分享与抑郁情绪关联数据集 数据来源:互联网公开数据 标签:音乐,Reddit,抑郁,情绪,社交媒体,文本分析,健康,心理学,数据挖掘 数据概述: 本数据集收录了Reddit平台上关于音乐分享行为与抑郁情绪关联的数据。数据集包含两个主要组成部分:songs.csv文件和clustered_posts文件夹。...
    packageimg
  • 永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分

    2025年4月15日   

    永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分 数据来源:互联网公开数据 标签:永恒之塔,游戏,论坛,讨论,文本,社区,社交,情感分析,主题建模 数据概述: 本数据集包含了2023年6月9日至7月15日(部分)期间,"永恒之塔经典版"游戏General...
    packageimg
  • WordNet反义词数据集-2006

    2025年4月15日   

    WordNet反义词数据集-2006 数据来源:互联网公开数据 标签:反义词,WordNet,语言学,数据,词典,文本分析,自然语言处理 数据概述: 本数据集包含了从WordNet数据库版本3.0中提取的反义词数据。每个反义词组由至少一个反义词构成,不同反义词组之间用 "|" 分隔,同一组内的反义词用 ";"...
    packageimg
  • 谷歌应用商店评论情感分析数据集-情感分类-多类别-二分类

    2025年4月15日   

    谷歌应用商店评论情感分析数据集-情感分类-多类别-二分类 数据来源:互联网公开数据 标签:情感分析,文本挖掘,自然语言处理,机器学习,评论数据,谷歌应用商店,二分类,多分类 数据概述: 本数据集包含两个文件:gpreviews_2.csv 和...
    packageimg
  • 奥本海默电影Reddit讨论数据集

    2025年4月15日   

    奥本海默电影Reddit讨论数据集 数据来源:互联网公开数据 标签:奥本海默电影,克里斯托弗诺兰,Reddit讨论,文本分析,情感分析,评论数据,电影评价 数据概述:...
    packageimg
  • Gustavosta自然语言处理研究提示数据集-2023

    2025年4月15日   

    Gustavosta自然语言处理研究提示数据集-2023 数据来源:互联网公开数据 标签:NLP,提示,自然语言处理,研究资源,Huggingface,机器学习,数据集 数据概述: 本数据集由Huggingface Hub提供,包含从Stable...
    packageimg
  • 土耳其民歌歌词数据集

    2025年4月15日   

    土耳其民歌歌词数据集 数据来源:互联网公开数据 标签:土耳其民歌,歌词,文化研究,情感分析,NLP,自然语言处理,地域分析 数据概述:...
    packageimg
  • 书籍引言数据集

    2025年4月15日   

    书籍引言数据集 数据来源:互联网公开数据 标签:书籍,引言,网络抓取,数据分析,教育,文学,引用 数据概述: 本数据集是通过网络抓取工具从"http://quotes.toscrape.com/"收集而来,涵盖了网站上所有重要列的数据,包括引言、作者、标签等信息,为进行探索性数据分析(EDA)提供了丰富的内容。 数据用途概述:...
    packageimg