找到16,258个数据集

标签: 自然语言处理

过滤结果
  • NLP数据增强工具库离线数据集1-0版数据集

    2025年4月15日   

    NLP数据增强工具库离线数据集1-0版数据集 数据来源:互联网公开数据 标签:NLP,文本增强,数据扩充,机器学习,自然语言处理,文本生成,数据集 数据概述:...
    packageimg
  • 特朗普2024年总统竞选TruthSocial平台推文数据集

    2025年4月15日   

    特朗普2024年总统竞选TruthSocial平台推文数据集 数据来源:互联网公开数据 标签:特朗普,2024年大选,Truth Social,社交媒体,政治,竞选,推文,情感分析,互动数据 数据概述: 本数据集收录了唐纳德·J·特朗普在2024年美国总统竞选期间,于Truth...
    packageimg
  • 电影数据分析与自然语言处理实践数据集-TMDB电影数据-时间不限

    2025年4月15日   

    电影数据分析与自然语言处理实践数据集-TMDB电影数据-时间不限 数据来源:互联网公开数据 标签:电影,TMDB,电影数据,NLP,自然语言处理,文本分析,情感分析,数据预处理,文本清洗,机器学习 数据概述: 本数据集包含了TMDB(The Movie...
    packageimg
  • 新闻情感数据集

    2025年4月15日   

    新闻情感数据集 数据来源:互联网公开数据 标签:新闻,情感分析,正面新闻,负面新闻,文本挖掘,社交媒体,数据分析 数据概述:...
    packageimg
  • 预处理分析GPT-3-5能力数据集

    2025年4月15日   

    预处理分析GPT-3-5能力数据集 数据来源:互联网公开数据 标签:GPT-3.5,情感分析,礼貌度分析,软件开发,Apache ZooKeeper,Ortu研究,数据分析 数据概述:...
    packageimg
  • 图书分类与评分预测数据集

    2025年4月15日   

    图书分类与评分预测数据集 数据来源:互联网公开数据 标签:图书分类, 文本分析, 评分预测, 自然语言处理, 数据挖掘, 书籍推荐, 作者影响力, 清新阅读 数据概述:...
    packageimg
  • 公共GPT模型列表数据集2023

    2025年4月15日   

    公共GPT模型列表数据集2023 数据来源:互联网公开数据 标签:GPT模型,自然语言处理,机器学习,公开数据,开发资源,研究工具,技术趋势 数据概述: 公共GPT模型列表数据集收录了目前所有公开可用的生成式预训练变换器(GPT)模型。数据集来源于GitHub上的一个专用存储库(https://github.com/casssapir/gpt-...
    packageimg
  • 权力的游戏Reddit社区讨论内容数据集

    2025年4月15日   

    权力的游戏Reddit社区讨论内容数据集 数据来源:互联网公开数据 标签:权力的游戏,Reddit,社交媒体,讨论,评论,帖子,文本分析,情感分析 数据概述: 本数据集收录了从Reddit社交平台r/gameofthrones子版块抓取的全部帖子和评论数据。数据通过Reddit...
    packageimg
  • 网络欺凌毒性文本分类数据集

    2025年4月15日   

    网络欺凌毒性文本分类数据集 数据来源:互联网公开数据 标签:网络欺凌,毒性文本,文本分类,自然语言处理,情感分析,内容安全,数据集 数据概述:...
    packageimg
  • 西班牙语书籍语料库

    2025年4月15日   

    西班牙语书籍语料库 数据来源:互联网公开数据 标签:西班牙语,语料库,文本分析,词性标注,儿童文学,成人文学,词频统计,文本边界分析 数据概述:...
    packageimg
  • IMDb电影数据集-全球热门电影信息与影评分析数据集

    2025年4月14日   

    IMDb电影数据集-全球热门电影信息与影评分析数据集 数据来源:互联网公开数据 标签:电影,IMDb,影评,评分,电影信息,电影分析,流媒体,票房,演员,导演 数据概述: “IMDb电影数据集”是一个内容丰富、广泛的电影相关数据集合,旨在为电影爱好者、研究人员、数据分析师和机器学习从业者提供一个全面的资源。...
    packageimg
  • 社区电视节目台词数据集1963-2021

    2025年4月15日   

    社区电视节目台词数据集1963-2021 数据来源:互联网公开数据 标签:社区电视节目,台词,语言模型,文本分析,电视剧研究,文化研究,历史背景 数据概述: 本数据集收录了某社区电视节目的全部台词记录,涵盖了从1963年至2021年间的多个季度和剧集。数据集通过网络爬虫技术收集,为研究该节目提供了全面的台词文本资料,适合进行语言模型训练和文本分析。...
    packageimg
  • AI2逻辑艺术数据集

    2025年4月15日   

    AI2逻辑艺术数据集 数据来源:互联网公开数据 标签:AI2,逻辑推理,自然语言处理,常识推理,机器学习,数据集,训练数据,语义算法,创业生态 数据概述: 该数据集由AI2(Allen Institute for AI)提供,是Huggingface...
    packageimg
  • IMDB电影描述与类型数据集

    2025年4月15日   

    IMDB电影描述与类型数据集 数据来源:互联网公开数据 标签:电影,IMDB,电影类型,电影描述,电影数据,影视,娱乐,影评,数据挖掘 数据概述: 本数据集包含超过18000部电影的类型和描述信息,数据来源于IMDB(互联网电影数据库)官方网站。 数据集包含了电影名称、电影类型以及对电影内容的简要描述。 数据用途概述:...
    packageimg
  • Reddit评论情感倾向与冒犯性评分数据集

    2025年4月15日   

    Reddit评论情感倾向与冒犯性评分数据集 数据来源:互联网公开数据 标签:Reddit,评论,情感分析,冒犯性,自然语言处理,文本数据,社交媒体,评分数据 数据概述:...
    packageimg
  • Reddit食谱分享与互动分析数据集

    2025年4月15日   

    Reddit食谱分享与互动分析数据集 数据来源:互联网公开数据 标签:食谱,Reddit,社交媒体,文本分析,NLP,烹饪,菜谱,用户互动,数据挖掘 数据概述:...
    packageimg
  • 灾害推文分类训练数据集

    2025年4月15日   

    灾害推文分类训练数据集 数据来源:互联网公开数据 标签:灾害推文,自然灾害,文本分类,机器学习,训练数据 数据概述: 本数据集是用于自然语言处理(NLP)的灾害推文分类任务的更新版训练集,包含了一些简短的推文,并且已经进行了填充处理。数据集中的每条推文都标注了是否与灾害相关,适用于训练灾害推文分类模型。 数据用途概述:...
    packageimg
  • 维基百科多语言文本识别数据集-2018

    2025年4月15日   

    维基百科多语言文本识别数据集-2018 数据来源:互联网公开数据 标签:文本识别,多语言,维基百科,自然语言处理,机器学习,语言学,文本分类,数据集 数据概述: WiLI-2018数据集是一个用于评估多语言文本识别任务的基准数据集,包含了来自维基百科的235种语言的235,000个文本段落。该数据集经过精心平衡,并提供了训练集和测试集划分。...
    packageimg
  • DeepSeek与ChatGPT人工智能平台表现对比数据集-2023年7月至2025年2月

    2025年4月15日   

    DeepSeek与ChatGPT人工智能平台表现对比数据集-2023年7月至2025年2月 数据来源:互联网公开数据 标签:人工智能,AI,ChatGPT,DeepSeek,性能对比,用户行为,时间序列,数据分析,机器学习,自然语言处理 数据概述: 本数据集模拟生成了2023年7月至2025年2月期间,ChatGPT (GPT-4-turbo) 和...
    packageimg
  • IMDb电影信息与用户评价数据集-1990至2023

    2025年4月15日   

    IMDb电影信息与用户评价数据集-1990至2023 数据来源:互联网公开数据 标签:电影,IMDb,评价,票房,演员,导演,电影类型,用户评论,数据分析 数据概述:...
    packageimg