找到11,966个数据集

标签: 自然语言处理

过滤结果
  • 验证集-500

    2025年4月14日   

    验证集-500 数据来源:互联网公开数据 标签:验证集,数据集,机器学习,自然语言处理,评估,LLM评估,GPT4 数据概述: 本数据集基于Kaggle上的“wuwenmin/llm-sci-...
    packageimg
  • 社交媒体推文情感分析数据集-基于RoBERTa模型的实体情感评分

    2025年4月14日   

    社交媒体推文情感分析数据集-基于RoBERTa模型的实体情感评分 数据来源:互联网公开数据 标签:情感分析,RoBERTa模型,推文,社交媒体,实体,情感分类,意见挖掘,自然语言处理 数据概述:...
    packageimg
  • 在线搜索查询意图领域分类数据集

    2025年4月14日   

    在线搜索查询意图领域分类数据集 数据来源:互联网公开数据 标签:自然语言处理,文本分类,搜索,查询,意图识别,机器学习,在线搜索,数据挖掘 数据概述: 本数据集由Analytics...
    packageimg
  • 安然公司电子邮件数据集-垃圾邮件检测与分析-2000-2002

    2025年4月14日   

    安然公司电子邮件数据集-垃圾邮件检测与分析-2000-2002 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件,安然公司,文本分析,自然语言处理,信息检索,邮件安全,金融,商业丑闻 数据概述:...
    packageimg
  • AI生成文本检测竞赛数据集-聊天机器人响应文本-训练与测试

    2025年4月14日   

    AI生成文本检测竞赛数据集-聊天机器人响应文本-训练与测试 数据来源:互联网公开数据 标签:人工智能,文本生成,聊天机器人,自然语言处理,文本检测,机器学习,竞赛数据,ChatGPT,Bard,Bing 数据概述:...
    packageimg
  • 母亲节推文情感分类数据集2023

    2025年4月14日   

    母亲节推文情感分类数据集2023 数据来源:互联网公开数据 标签:母亲节,推文,情感分析,机器学习,自然语言处理,社交媒体分析 数据概述:...
    packageimg
  • 卡纳达语数据集

    2025年4月14日   

    卡纳达语数据集 数据来源:互联网公开数据 标签:卡纳达语,自然语言处理,NLP,语言模型,多样文本,精细调优,古吉拉特语 数据概述...
    packageimg
  • 写作与写作质量研究论文数据集1963-2021

    2025年4月14日   

    写作与写作质量研究论文数据集1963-2021 数据来源:互联网公开数据 标签:写作质量,论文,写作过程,机器学习,自然语言处理,教育研究,数据分析 数据概述: 本数据集收录了通过特定写作过程生成的训练集和测试集论文,数据源自Kaggle竞赛链接:https://www.kaggle.com/competitions/linking-writing-...
    packageimg
  • 社交媒体内容情感分析与OCR文本数据集2023

    2025年4月14日   

    社交媒体内容情感分析与OCR文本数据集2023 数据来源:互联网公开数据 标签:社交媒体,情感分析,OCR,文本分类,图像处理,自然语言处理 数据概述:...
    packageimg
  • 马拉提语新闻标题数据集1963-2021

    2025年4月14日   

    马拉提语新闻标题数据集1963-2021 数据来源:互联网公开数据 标签:马拉提语,新闻标题,文本分析,自然语言处理,分类模型,机器学习,数据清洗 数据概述: 本数据集包含从马拉提语新闻网站收集的约12000条新闻文章标题。数据集已经经过清洗处理,并分为训练集和测试集,适用于基准测试各类马拉提语文本分类模型。 数据用途概述:...
    packageimg
  • 波斯语情绪分析与分类数据集

    2025年4月14日   

    波斯语情绪分析与分类数据集 数据来源:互联网公开数据 标签:情绪分析,波斯语,文本分类,自然语言处理,情感识别,机器学习 数据概述:...
    packageimg
  • LLM恢复对齐数据集

    2025年4月14日   

    LLM恢复对齐数据集 数据来源:互联网公开数据 标签:语言模型,恢复对齐,自然语言处理,NLP,生成模型,对齐评估,文本生成 数据概述 本数据集由Gemma-7b-it模型生成,使用最大token长度设置为256。数据集包含两部分内容:原始文本(document)和重写文本(rewritten)。原始文本来源于Hugging...
    packageimg
  • 推特情感分析数据集-2009年

    2025年4月14日   

    推特情感分析数据集-2009年 数据来源:互联网公开数据 标签:情感分析,文本挖掘,推特,社交媒体,机器学习,自然语言处理,情绪识别 数据概述: 本数据集包含2009年推特上的推文数据,用于情感分析研究。...
    packageimg
  • 命名实体识别文本信息标注数据集

    2025年4月14日   

    命名实体识别文本信息标注数据集 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,文本分析,机器学习,数据标注,信息抽取,文本挖掘 数据概述:...
    packageimg
  • 基于GPT-3的改写文章数据集

    2025年4月14日   

    基于GPT-3的改写文章数据集 数据来源:互联网公开数据 标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译 数据概述: 本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3...
    packageimg
  • 马拉雅拉姆推特数据集

    2025年4月14日   

    马拉雅拉姆推特数据集 数据来源:互联网公开数据 标签:推特,马拉雅拉姆,情感分析,社交媒体,文本数据,用户行为,自然语言处理 数据概述:...
    packageimg
  • 垃圾邮件过滤研究-SpamAssassin邮件数据集

    2025年4月14日   

    垃圾邮件过滤研究-SpamAssassin邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,SpamAssassin,邮件,文本分类,自然语言处理,机器学习,贝叶斯,语料库 数据概述:...
    packageimg
  • 西班牙语评论文本向量化分析数据集

    2025年4月14日   

    西班牙语评论文本向量化分析数据集 数据来源:互联网公开数据 标签:西班牙语,文本分析,自然语言处理,情感分析,机器学习,词袋模型,TF-IDF,停用词,分类 数据概述: 本数据集包含722条西班牙语评论文本,用于二元分类问题。数据集经过文本向量化处理,基于词袋模型(BoW)和TF-...
    packageimg
  • 仇恨言论和冒犯性推文数据集

    2025年4月14日   

    仇恨言论和冒犯性推文数据集 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体,推特,文本分析,自然语言处理,社会伦理 数据概述:...
    packageimg
  • 准确医疗翻译数据集

    2025年4月14日   

    准确医疗翻译数据集 数据来源:互联网公开数据 标签:医疗翻译,准确翻译,自然语言处理,机器学习,跨文化比较,医疗信息交流,全球医疗协作 数据概述: 本数据集是一个全面且可靠的医疗翻译数据集,由yanis...
    packageimg