找到16,286个数据集

标签: 自然语言处理

过滤结果
  • 韩国语翻译数据集

    2025年4月15日   

    韩国语翻译数据集 数据来源:互联网公开数据 标签:韩国语,翻译,NLP模型,机器翻译,自然语言处理,DeepL API,英译韩,语言学习 数据概述: 本数据集提供了一组从英语翻译成韩国语的文本数据,适用于GPT4ALL、Dolly、Vicuna等NLP模型的训练与研究。数据集由nlpai-lab团队整理,通过DeepL...
    packageimg
  • 比特币价格预测多模态数据集-推特文本-价格与交易量-2019-2023

    2025年4月15日   

    比特币价格预测多模态数据集-推特文本-价格与交易量-2019-2023 数据来源:互联网公开数据 标签:比特币,价格预测,推特,社交媒体,文本分析,金融,时间序列,机器学习 数据概述: 本数据集是论文“PreBit -...
    packageimg
  • Reddit社区情感分析-帖子情感倾向数据集-2024

    2025年4月15日   

    Reddit社区情感分析-帖子情感倾向数据集-2024 数据来源:互联网公开数据 标签:情感分析, Reddit, 文本数据, 社交媒体, 自然语言处理, 情感分类, 机器学习, 文本情感, 帖子, 2024 数据概述:...
    packageimg
  • WebGL模型问答数据集

    2025年4月15日   

    WebGL模型问答数据集 数据来源:互联网公开数据 标签:WebGL,模型,问答,自然语言处理,机器学习,计算机图形学,数据集,QA 数据概述: 本数据集由THUDM团队在Hugging...
    packageimg
  • 新型冠状病毒推文趋势数据集

    2025年4月15日   

    新型冠状病毒推文趋势数据集 数据来源:互联网公开数据 标签:推文,新冠,疫情分析,社交媒体,时间序列分析,文本挖掘,自然语言处理 数据概述:...
    packageimg
  • 垃圾文本分类数据集

    2025年4月15日   

    垃圾文本分类数据集 数据来源:互联网公开数据 标签:垃圾文本,文本分类,自然语言处理,市场调研,质量控制,机器学习 数据概述:...
    packageimg
  • 帮助与无害智能助手数据集

    2025年4月15日   

    帮助与无害智能助手数据集 数据来源:互联网公开数据 标签:智能助手,人机交互,强化学习,对话系统,行为分析,风险控制,人机反馈 数据概述: 本数据集包含来自Anthropic论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human...
    packageimg
  • 波兰图书评论数据集

    2025年4月15日   

    波兰图书评论数据集 数据来源:互联网公开数据 标签:图书评论,波兰,用户反馈,情感分析,文本数据,自然语言处理 数据概述: 本数据集来源于波兰最大的在线图书论坛...
    packageimg
  • 印度拼图毒评强度与严重性增强数据集1963-2021

    2025年4月15日   

    印度拼图毒评强度与严重性增强数据集1963-2021 数据来源:互联网公开数据 标签:文本增强,毒评检测,数据增强,自然语言处理,情感分析,机器学习,数据分析 数据概述: 本数据集用于增强初始的印度拼图(Jigsaw)数据集,特别针对毒评强度与严重性的分析。数据集来源于Davidson等人在2017年发表的《Automated Hate Speech...
    packageimg
  • 全球议题新闻分类数据集

    2025年4月15日   

    全球议题新闻分类数据集 数据来源:互联网公开数据 标签:新闻分类,全球议题,文本分类,多分类问题,不平衡数据,动态更新,机器学习基准数据集 数据概述...
    packageimg
  • 仇恨言论分类数据集

    2025年4月15日   

    仇恨言论分类数据集 数据来源:互联网公开数据 标签:仇恨言论,MeToo运动,社交媒体分析,文本分类,数据挖掘,社会研究,自然语言处理 数据概述:...
    packageimg
  • 日本动漫图像标签描述数据集-Safebooru标签信息

    2025年4月15日   

    日本动漫图像标签描述数据集-Safebooru标签信息 数据来源:互联网公开数据 标签:动漫,图像,标签,描述,日语,Safebooru,数据分析,自然语言处理,图像识别,文本挖掘 数据概述:...
    packageimg
  • 土耳其可持续发展数据集

    2025年4月15日   

    土耳其可持续发展数据集 数据来源:互联网公开数据 标签:土耳其,可持续发展,数据集,LLM,自然语言处理,教育培训,教育,创业 数据概述: 本数据集旨在用于微调T3 AI的土耳其LLM。该数据集由Barathan Aslan、Ömer Faruk Çelik和Batuhan Kalem为T3...
    packageimg
  • 世界新闻热点文章文本情感分析数据集2023

    2025年4月15日   

    世界新闻热点文章文本情感分析数据集2023 数据来源:互联网公开数据 标签:世界新闻,情感分析,Reddit,新闻文本,自然语言处理,数据清洗,实体识别 数据概述: 本数据集包含了从Reddit的r/worldnews板块抓取的热门文章文本,时间范围截至2023年。数据集通过PushShift...
    packageimg
  • 印度马拉地语新闻标题清理数据集

    2025年4月15日   

    印度马拉地语新闻标题清理数据集 数据来源:互联网公开数据 标签:马拉地语,新闻标题,文本清理,数据处理,自然语言处理,SKlearn,分词,文本分析 数据概述: 本数据集包含约12000条经过清理的马拉地语新闻文章标题,源自iNLTK原始数据集。清理步骤包括罗马化、规范化、去除重复项及使用Indic-NLP-...
    packageimg
  • 中文情感评分数据集

    2025年4月15日   

    中文情感评分数据集 数据来源:互联网公开数据 标签:情感分析,中文文本,情感评分,自然语言处理,数据标注,文本分类 数据概述:...
    packageimg
  • 德国商业分析自由职业者数据集

    2025年4月15日   

    德国商业分析自由职业者数据集 数据来源:互联网公开数据 标签:商业分析,自由职业者,德国,数据清理,探索性数据分析,自然语言处理,聚类,机器学习 数据概述:...
    packageimg
  • 人群歧视用语数据集

    2025年4月15日   

    人群歧视用语数据集 数据来源:互联网公开数据 标签:种族主义,性别歧视,语言学分析,情感分析,社会偏见,数据科学,自然语言处理 数据概述:...
    packageimg
  • 因果性在大语言模型中的分析数据集

    2025年4月15日   

    因果性在大语言模型中的分析数据集 数据来源:互联网公开数据 标签:大语言模型,因果性,新闻标题生成,模型比较,机器学习,自然语言处理,人工智能 数据概述:...
    packageimg
  • 罗马-乌尔都语情感分析标注数据集

    2025年4月15日   

    罗马-乌尔都语情感分析标注数据集 数据来源:互联网公开数据 标签:罗马乌尔都语,情感分析,文本标注,自然语言处理,机器学习 数据概述: 本数据集是Kaggle上已有的“Roman Urdu Sentiment Analysis”数据集的清理版本,由S....
    packageimg