找到11,976个数据集

标签: 自然语言处理

过滤结果
  • 土耳其可持续发展数据集

    2025年4月15日   

    土耳其可持续发展数据集 数据来源:互联网公开数据 标签:土耳其,可持续发展,数据集,LLM,自然语言处理,教育培训,教育,创业 数据概述: 本数据集旨在用于微调T3 AI的土耳其LLM。该数据集由Barathan Aslan、Ömer Faruk Çelik和Batuhan Kalem为T3...
    packageimg
  • 世界新闻热点文章文本情感分析数据集2023

    2025年4月15日   

    世界新闻热点文章文本情感分析数据集2023 数据来源:互联网公开数据 标签:世界新闻,情感分析,Reddit,新闻文本,自然语言处理,数据清洗,实体识别 数据概述: 本数据集包含了从Reddit的r/worldnews板块抓取的热门文章文本,时间范围截至2023年。数据集通过PushShift...
    packageimg
  • 印度马拉地语新闻标题清理数据集

    2025年4月15日   

    印度马拉地语新闻标题清理数据集 数据来源:互联网公开数据 标签:马拉地语,新闻标题,文本清理,数据处理,自然语言处理,SKlearn,分词,文本分析 数据概述: 本数据集包含约12000条经过清理的马拉地语新闻文章标题,源自iNLTK原始数据集。清理步骤包括罗马化、规范化、去除重复项及使用Indic-NLP-...
    packageimg
  • 中文情感评分数据集

    2025年4月15日   

    中文情感评分数据集 数据来源:互联网公开数据 标签:情感分析,中文文本,情感评分,自然语言处理,数据标注,文本分类 数据概述:...
    packageimg
  • 德国商业分析自由职业者数据集

    2025年4月15日   

    德国商业分析自由职业者数据集 数据来源:互联网公开数据 标签:商业分析,自由职业者,德国,数据清理,探索性数据分析,自然语言处理,聚类,机器学习 数据概述:...
    packageimg
  • 人群歧视用语数据集

    2025年4月15日   

    人群歧视用语数据集 数据来源:互联网公开数据 标签:种族主义,性别歧视,语言学分析,情感分析,社会偏见,数据科学,自然语言处理 数据概述:...
    packageimg
  • 因果性在大语言模型中的分析数据集

    2025年4月15日   

    因果性在大语言模型中的分析数据集 数据来源:互联网公开数据 标签:大语言模型,因果性,新闻标题生成,模型比较,机器学习,自然语言处理,人工智能 数据概述:...
    packageimg
  • 罗马-乌尔都语情感分析标注数据集

    2025年4月15日   

    罗马-乌尔都语情感分析标注数据集 数据来源:互联网公开数据 标签:罗马乌尔都语,情感分析,文本标注,自然语言处理,机器学习 数据概述: 本数据集是Kaggle上已有的“Roman Urdu Sentiment Analysis”数据集的清理版本,由S....
    packageimg
  • YouTube热门视频高赞评论数据集

    2025年4月15日   

    YouTube热门视频高赞评论数据集 数据来源:互联网公开数据 标签:YouTube,评论,高赞,社交媒体,文本数据,自然语言处理,情感分析,视频,观看量,用户互动 数据概述: 本数据集包含YouTube上观看量超过10亿次的视频的精选高赞评论。数据基于YouTube...
    packageimg
  • 印度板球超级联赛IPL2018-2020逐球评论数据集

    2025年4月15日   

    印度板球超级联赛IPL2018-2020逐球评论数据集 数据来源:互联网公开数据 标签:印度板球超级联赛,IPL,逐球评论,球赛分析,自然语言处理,数据挖掘,机器学习 数据概述:...
    packageimg
  • 教育领域多选题LLM格式化数据集-3-4万题

    2025年4月15日   

    教育领域多选题LLM格式化数据集-3-4万题 数据来源:互联网公开数据 标签:教育,多选题,LLM,考试,题目,问答,自然语言处理,机器学习,数据集 数据概述:...
    packageimg
  • eBay商品评论情感分析数据集

    2025年4月15日   

    eBay商品评论情感分析数据集 数据来源:互联网公开数据 标签:eBay,商品评论,情感分析,文本数据,评分,机器学习,自然语言处理 数据概述: 本数据集由作者通过Python网络爬虫脚本从eBay网站抓取,旨在用于情感分析模型的构建。数据集包含两个文件:...
    packageimg
  • YouTube视频质量评估数据集

    2025年4月15日   

    YouTube视频质量评估数据集 数据来源:互联网公开数据 标签:YouTube,视频质量,视频分析,机器学习,自然语言处理,用户行为,视频推荐 数据概述: 本数据集旨在用于YouTube视频质量的评估与分析。 数据集包含了多个CSV文件,每个文件包含不同视频的元数据和标签。主要数据来源是通过YouTube...
    packageimg
  • 合成引言数据集

    2025年4月15日   

    合成引言数据集 数据来源:互联网公开数据 标签:合成文本,机器学习,生成模型,自然语言处理,分类任务,引言生成,深度学习 数据概述: 本数据集包含用于生成分类任务的小型复杂数据集,适用于大语言模型(LLM)生成人类风格引言的研究和验证。数据集包括500条真实引言(490条训练,10条验证)以及通过mistral-...
    packageimg
  • 补充文本重写数据集

    2025年4月15日   

    补充文本重写数据集 数据来源:互联网公开数据 标签:文本重写,生成式AI,文本生成,数据增强,机器学习,自然语言处理 数据概述: 本数据集由Gemma_7b-it-...
    packageimg
  • Kaggle平台数据任务AI助手文档问答数据集

    2025年4月15日   

    Kaggle平台数据任务AI助手文档问答数据集 数据来源:互联网公开数据 标签:Kaggle, AI助手, 数据任务, 文档, 问答, Gemma, 自然语言处理, 机器学习, 开发者工具 数据概述: 本数据集旨在支持“Google – AI Assistants for Data Tasks with Gemma : Build tools to...
    packageimg
  • 基于GPT-2生成的灾难推文数据集

    2025年4月15日   

    基于GPT-2生成的灾难推文数据集 数据来源:互联网公开数据 标签:NLP,自然语言处理,灾难推文,数据增强,GPT-2,文本生成 数据概述:...
    packageimg
  • 古登堡文学作品样本数据集18本书1963-2021

    2025年4月15日   

    古登堡文学作品样本数据集18本书1963-2021 数据来源:互联网公开数据 标签:古登堡项目,文学作品,文本样本,分类任务,自然语言处理,经典文学,样本清理 数据概述:...
    packageimg
  • 自然语言处理文本纠错数据集

    2025年4月15日   

    自然语言处理文本纠错数据集 数据来源:互联网公开数据 标签:自然语言处理,文本纠错,语法错误检测,机器学习,数据分类,语言技术,文本分析 数据概述:...
    packageimg
  • 带表情符号的推文数据集

    2025年4月15日   

    带表情符号的推文数据集 数据来源:互联网公开数据 标签:表情符号,推文,社交媒体,自然语言处理,情绪分析,文本挖掘,机器学习 数据概述:...
    packageimg