找到11,702个数据集

标签: 自然语言处理

过滤结果
  • NLP数据增强工具库离线数据集1-0版数据集

    2025年4月15日   

    NLP数据增强工具库离线数据集1-0版数据集 数据来源:互联网公开数据 标签:NLP,文本增强,数据扩充,机器学习,自然语言处理,文本生成,数据集 数据概述:...
    packageimg
  • 电影数据分析与自然语言处理实践数据集-TMDB电影数据-时间不限

    2025年4月15日   

    电影数据分析与自然语言处理实践数据集-TMDB电影数据-时间不限 数据来源:互联网公开数据 标签:电影,TMDB,电影数据,NLP,自然语言处理,文本分析,情感分析,数据预处理,文本清洗,机器学习 数据概述: 本数据集包含了TMDB(The Movie...
    packageimg
  • 图书分类与评分预测数据集

    2025年4月15日   

    图书分类与评分预测数据集 数据来源:互联网公开数据 标签:图书分类, 文本分析, 评分预测, 自然语言处理, 数据挖掘, 书籍推荐, 作者影响力, 清新阅读 数据概述:...
    packageimg
  • 公共GPT模型列表数据集2023

    2025年4月15日   

    公共GPT模型列表数据集2023 数据来源:互联网公开数据 标签:GPT模型,自然语言处理,机器学习,公开数据,开发资源,研究工具,技术趋势 数据概述: 公共GPT模型列表数据集收录了目前所有公开可用的生成式预训练变换器(GPT)模型。数据集来源于GitHub上的一个专用存储库(https://github.com/casssapir/gpt-...
    packageimg
  • 网络欺凌毒性文本分类数据集

    2025年4月15日   

    网络欺凌毒性文本分类数据集 数据来源:互联网公开数据 标签:网络欺凌,毒性文本,文本分类,自然语言处理,情感分析,内容安全,数据集 数据概述:...
    packageimg
  • AI2逻辑艺术数据集

    2025年4月15日   

    AI2逻辑艺术数据集 数据来源:互联网公开数据 标签:AI2,逻辑推理,自然语言处理,常识推理,机器学习,数据集,训练数据,语义算法,创业生态 数据概述: 该数据集由AI2(Allen Institute for AI)提供,是Huggingface...
    packageimg
  • Reddit评论情感倾向与冒犯性评分数据集

    2025年4月15日   

    Reddit评论情感倾向与冒犯性评分数据集 数据来源:互联网公开数据 标签:Reddit,评论,情感分析,冒犯性,自然语言处理,文本数据,社交媒体,评分数据 数据概述:...
    packageimg
  • 印度泰米尔-英语文本情感分析数据集2021

    2025年4月15日   

    印度泰米尔-英语文本情感分析数据集2021 数据来源:互联网公开数据 标签:情感分析,泰米尔语,英语,多语言处理,社交媒体评论,文本分类,自然语言处理 数据概述: 本数据集包含从YouTube视频评论中收集的15,744条泰米尔-...
    packageimg
  • 维基百科多语言文本识别数据集-2018

    2025年4月15日   

    维基百科多语言文本识别数据集-2018 数据来源:互联网公开数据 标签:文本识别,多语言,维基百科,自然语言处理,机器学习,语言学,文本分类,数据集 数据概述: WiLI-2018数据集是一个用于评估多语言文本识别任务的基准数据集,包含了来自维基百科的235种语言的235,000个文本段落。该数据集经过精心平衡,并提供了训练集和测试集划分。...
    packageimg
  • DeepSeek与ChatGPT人工智能平台表现对比数据集-2023年7月至2025年2月

    2025年4月15日   

    DeepSeek与ChatGPT人工智能平台表现对比数据集-2023年7月至2025年2月 数据来源:互联网公开数据 标签:人工智能,AI,ChatGPT,DeepSeek,性能对比,用户行为,时间序列,数据分析,机器学习,自然语言处理 数据概述: 本数据集模拟生成了2023年7月至2025年2月期间,ChatGPT (GPT-4-turbo) 和...
    packageimg
  • 可疑微博数据集

    2025年4月15日   

    可疑微博数据集 数据来源:互联网公开数据 标签:社交媒体,文本分类,异常检测,网络安全,内容监管,自然语言处理,情感分析 数据概述 本数据集包含一批经过分类的社交媒体文本数据,主要用于识别和分析可疑内容。数据中的每条记录代表一条微博文本,并根据其是否具有可疑特征被标注为“可疑”或“非可疑”。具体标注规则如下: - 可疑 = 1 - 非可疑 = 0...
    packageimg
  • 社交媒体侮辱言论数据集

    2025年4月15日   

    社交媒体侮辱言论数据集 数据来源:互联网公开数据 标签:社交媒体,侮辱言论,文本分析,自然语言处理,情感分析,评论文本 数据概述:...
    packageimg
  • SFU评论语料库-否定标注数据集

    2025年4月15日   

    SFU评论语料库-否定标注数据集 数据来源:互联网公开数据 标签:自然语言处理,情感分析,否定标注,文本语料,电影书评,消费者评价,机器学习 数据概述:...
    packageimg
  • Commonlit阅读理解文章难度评估数据集-2020年8月

    2025年4月15日   

    Commonlit阅读理解文章难度评估数据集-2020年8月 数据来源:互联网公开数据 标签:阅读理解,文本分析,教育,自然语言处理,阅读难度,文本数据,Commonlit,机器学习 数据概述:...
    packageimg
  • Reddit读书建议社区书籍推荐数据集-时间跨度待定

    2025年4月15日   

    Reddit读书建议社区书籍推荐数据集-时间跨度待定 数据来源:互联网公开数据 标签:书籍推荐, Reddit, 社交媒体, 文本分析, 自然语言处理, 情感分析, 图书评论, 读者互动 数据概述: 本数据集来源于Reddit社交平台上的r/booksuggestions子版块,该版块汇集了用户关于书籍的讨论与推荐。数据通过Python Reddit...
    packageimg
  • 手机评论数据集

    2025年4月15日   

    手机评论数据集 数据来源:互联网公开数据 标签:手机评论,情感分析,文本数据,评分系统,自然语言处理,数据清洗,机器学习 数据概述: 本数据集包含手机评论的原始数据,覆盖了从旧款到新款手机的用户反馈,每条评论均配有1到5星的评分。数据集以原始形式呈现,包含缺失值、异常值以及重复数据。这些原始数据为后续的数据处理和分析提供了基础。 数据用途概述:...
    packageimg
  • 印度技术挑战赛问答数据集2023

    2025年4月15日   

    印度技术挑战赛问答数据集2023 数据来源:互联网公开数据 标签:问答数据集,印度技术挑战赛,问题解决,自然语言处理,机器学习,教育应用 数据概述: 本数据集来源于2023年印度技术挑战赛(Inter IIT Tech Meet 11.0),由印度理工学院坎普尔(IIT...
    packageimg
  • 社交媒体虚假声明检测与分类声明数据集

    2025年4月15日   

    社交媒体虚假声明检测与分类声明数据集 数据来源:互联网公开数据 标签:虚假声明检测,社交媒体,文本分类,深度学习,信息真实性,声明分析,自然语言处理 数据概述: 本数据集旨在解决社交媒体平台上虚假信息和假新闻的传播问题,通过收集和整理声明文本及其相关元数据,构建了一个用于检测虚假声明的结构化数据集。数据集包含以下字段: - ID:唯一标识符 -...
    packageimg
  • 印度及周边地区抑郁症与非抑郁症推文数据集2019-2020

    2025年4月15日   

    印度及周边地区抑郁症与非抑郁症推文数据集2019-2020 数据来源:互联网公开数据 标签:抑郁症,非抑郁症,推文,情感分析,印度,印度次大陆,情感词典,自然语言处理 数据概述:...
    packageimg
  • Reddit跨板块帖子分析数据集1963-2021

    2025年4月15日   

    Reddit跨板块帖子分析数据集1963-2021 数据来源:互联网公开数据 标签:Reddit,帖子,社区分析,自然语言处理,情感分析,话题建模,社交媒体研究 数据概述:...
    packageimg