-
马拉提语新闻标题数据集1963-2021
马拉提语新闻标题数据集1963-2021 数据来源:互联网公开数据 标签:马拉提语,新闻标题,文本分析,自然语言处理,分类模型,机器学习,数据清洗 数据概述: 本数据集包含从马拉提语新闻网站收集的约12000条新闻文章标题。数据集已经经过清洗处理,并分为训练集和测试集,适用于基准测试各类马拉提语文本分类模型。 数据用途概述:... -
-
LLM恢复对齐数据集
LLM恢复对齐数据集 数据来源:互联网公开数据 标签:语言模型,恢复对齐,自然语言处理,NLP,生成模型,对齐评估,文本生成 数据概述 本数据集由Gemma-7b-it模型生成,使用最大token长度设置为256。数据集包含两部分内容:原始文本(document)和重写文本(rewritten)。原始文本来源于Hugging... -
推特情感分析数据集-2009年
推特情感分析数据集-2009年 数据来源:互联网公开数据 标签:情感分析,文本挖掘,推特,社交媒体,机器学习,自然语言处理,情绪识别 数据概述: 本数据集包含2009年推特上的推文数据,用于情感分析研究。... -
命名实体识别文本信息标注数据集
命名实体识别文本信息标注数据集 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,文本分析,机器学习,数据标注,信息抽取,文本挖掘 数据概述:... -
基于GPT-3的改写文章数据集
基于GPT-3的改写文章数据集 数据来源:互联网公开数据 标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译 数据概述: 本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3... -
-
垃圾邮件过滤研究-SpamAssassin邮件数据集
垃圾邮件过滤研究-SpamAssassin邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,SpamAssassin,邮件,文本分类,自然语言处理,机器学习,贝叶斯,语料库 数据概述:... -
西班牙语评论文本向量化分析数据集
西班牙语评论文本向量化分析数据集 数据来源:互联网公开数据 标签:西班牙语,文本分析,自然语言处理,情感分析,机器学习,词袋模型,TF-IDF,停用词,分类 数据概述: 本数据集包含722条西班牙语评论文本,用于二元分类问题。数据集经过文本向量化处理,基于词袋模型(BoW)和TF-... -
-
准确医疗翻译数据集
准确医疗翻译数据集 数据来源:互联网公开数据 标签:医疗翻译,准确翻译,自然语言处理,机器学习,跨文化比较,医疗信息交流,全球医疗协作 数据概述: 本数据集是一个全面且可靠的医疗翻译数据集,由yanis... -
佐科维推特数据集
佐科维推特数据集 数据来源:互联网公开数据 标签:佐科维,推特,印尼总统,情感分析,自然语言处理,社交媒体数据,机器学习 数据概述: 本数据集包含印度尼西亚第七任总统佐科维在2022年在其官方推特账号上发布的1,000条推文。每条推文都根据其情感被标注为正面、负面或中性。... -
福尔德家族故事集情感分析数据集
福尔德家族故事集情感分析数据集 数据来源:互联网公开数据 标签:情感分析,文本分析,自然语言处理,福尔德家族,故事集,词频分析,情感词典,主题建模,实体识别 数据概述:... -
虚假新闻类型分类研究数据集
虚假新闻类型分类研究数据集 数据来源:互联网公开数据 标签:虚假新闻,经济,政治,社会,科学,分类模型,数据集,机器学习,自然语言处理 数据概述:... -
多模态情感数据集
多模态情感数据集 数据来源:互联网公开数据 标签:多模态,情感分析,图像识别,自然语言处理,计算机视觉,图像分类,文本分析 数据概述: 本数据集包含100个不同类别动物和物体的图像及其对应的文本描述和情感标签,适用于多模态情感分析研究。图像类别包括鲨鱼、鸟类、蜥蜴、蜘蛛等。该数据集为计算机视觉和自然语言处理任务提供了丰富的数据资源。 数据用途概述:... -
印尼苏丹语推特情绪分类数据集2021
印尼苏丹语推特情绪分类数据集2021 数据来源:互联网公开数据 标签:苏丹语,推特,情绪分类,自然语言处理,计算机科学,数据集 数据概述: 本数据集包含2510条推特,这些推特使用印尼的第二大本地语言——苏丹语。数据集用于情绪分类研究,旨在帮助理解苏丹语推特中的情绪表达。数据集经过预处理,包括小写转换、停用词去除和词干提取。 数据用途概述:... -
HuggingFace模型库模型下载量及特征分析数据集-2023年9月
HuggingFace模型库模型下载量及特征分析数据集-2023年9月 数据来源:互联网公开数据 标签:Hugging Face, 模型库, 下载量, 模型, 机器学习, 自然语言处理, 计算机视觉, 模型分析 数据概述: 本数据集收录了截至2023年9月20日Hugging... -
TikTok视频字幕与误导信息分类数据集
TikTok视频字幕与误导信息分类数据集 数据来源:互联网公开数据 标签:短视频, 社交媒体, 误导信息, 内容审核, 自然语言处理, 数据标注, 机器学习, 用户互动 数据概述 本数据集包含了来自 TikTok... -
领英企业页面帖子数据分析数据集-2021年2月
领英企业页面帖子数据分析数据集-2021年2月 数据来源:互联网公开数据 标签:领英,企业页面,帖子,社交媒体分析,内容分析,自然语言处理,数据抓取 数据概述:... -
印度尼西亚垃圾短信文本分析数据集1963-2021
印度尼西亚垃圾短信文本分析数据集1963-2021 数据来源:互联网公开数据 标签:垃圾短信,文本分析,商业用途,欺诈检测,客户支持,趋势分析,教育,网络安全,短信分类,机器学习,自然语言处理 数据概述:...