-
验证集-500
验证集-500 数据来源:互联网公开数据 标签:验证集,数据集,机器学习,自然语言处理,评估,LLM评估,GPT4 数据概述: 本数据集基于Kaggle上的“wuwenmin/llm-sci-... -
社交媒体推文情感分析数据集-基于RoBERTa模型的实体情感评分
社交媒体推文情感分析数据集-基于RoBERTa模型的实体情感评分 数据来源:互联网公开数据 标签:情感分析,RoBERTa模型,推文,社交媒体,实体,情感分类,意见挖掘,自然语言处理 数据概述:... -
在线搜索查询意图领域分类数据集
在线搜索查询意图领域分类数据集 数据来源:互联网公开数据 标签:自然语言处理,文本分类,搜索,查询,意图识别,机器学习,在线搜索,数据挖掘 数据概述: 本数据集由Analytics... -
安然公司电子邮件数据集-垃圾邮件检测与分析-2000-2002
安然公司电子邮件数据集-垃圾邮件检测与分析-2000-2002 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件,安然公司,文本分析,自然语言处理,信息检索,邮件安全,金融,商业丑闻 数据概述:... -
AI生成文本检测竞赛数据集-聊天机器人响应文本-训练与测试
AI生成文本检测竞赛数据集-聊天机器人响应文本-训练与测试 数据来源:互联网公开数据 标签:人工智能,文本生成,聊天机器人,自然语言处理,文本检测,机器学习,竞赛数据,ChatGPT,Bard,Bing 数据概述:... -
母亲节推文情感分类数据集2023
母亲节推文情感分类数据集2023 数据来源:互联网公开数据 标签:母亲节,推文,情感分析,机器学习,自然语言处理,社交媒体分析 数据概述:... -
-
写作与写作质量研究论文数据集1963-2021
写作与写作质量研究论文数据集1963-2021 数据来源:互联网公开数据 标签:写作质量,论文,写作过程,机器学习,自然语言处理,教育研究,数据分析 数据概述: 本数据集收录了通过特定写作过程生成的训练集和测试集论文,数据源自Kaggle竞赛链接:https://www.kaggle.com/competitions/linking-writing-... -
社交媒体内容情感分析与OCR文本数据集2023
社交媒体内容情感分析与OCR文本数据集2023 数据来源:互联网公开数据 标签:社交媒体,情感分析,OCR,文本分类,图像处理,自然语言处理 数据概述:... -
马拉提语新闻标题数据集1963-2021
马拉提语新闻标题数据集1963-2021 数据来源:互联网公开数据 标签:马拉提语,新闻标题,文本分析,自然语言处理,分类模型,机器学习,数据清洗 数据概述: 本数据集包含从马拉提语新闻网站收集的约12000条新闻文章标题。数据集已经经过清洗处理,并分为训练集和测试集,适用于基准测试各类马拉提语文本分类模型。 数据用途概述:... -
-
LLM恢复对齐数据集
LLM恢复对齐数据集 数据来源:互联网公开数据 标签:语言模型,恢复对齐,自然语言处理,NLP,生成模型,对齐评估,文本生成 数据概述 本数据集由Gemma-7b-it模型生成,使用最大token长度设置为256。数据集包含两部分内容:原始文本(document)和重写文本(rewritten)。原始文本来源于Hugging... -
推特情感分析数据集-2009年
推特情感分析数据集-2009年 数据来源:互联网公开数据 标签:情感分析,文本挖掘,推特,社交媒体,机器学习,自然语言处理,情绪识别 数据概述: 本数据集包含2009年推特上的推文数据,用于情感分析研究。... -
命名实体识别文本信息标注数据集
命名实体识别文本信息标注数据集 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,文本分析,机器学习,数据标注,信息抽取,文本挖掘 数据概述:... -
基于GPT-3的改写文章数据集
基于GPT-3的改写文章数据集 数据来源:互联网公开数据 标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译 数据概述: 本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3... -
-
垃圾邮件过滤研究-SpamAssassin邮件数据集
垃圾邮件过滤研究-SpamAssassin邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,SpamAssassin,邮件,文本分类,自然语言处理,机器学习,贝叶斯,语料库 数据概述:... -
西班牙语评论文本向量化分析数据集
西班牙语评论文本向量化分析数据集 数据来源:互联网公开数据 标签:西班牙语,文本分析,自然语言处理,情感分析,机器学习,词袋模型,TF-IDF,停用词,分类 数据概述: 本数据集包含722条西班牙语评论文本,用于二元分类问题。数据集经过文本向量化处理,基于词袋模型(BoW)和TF-... -
-
准确医疗翻译数据集
准确医疗翻译数据集 数据来源:互联网公开数据 标签:医疗翻译,准确翻译,自然语言处理,机器学习,跨文化比较,医疗信息交流,全球医疗协作 数据概述: 本数据集是一个全面且可靠的医疗翻译数据集,由yanis...