-
吉吉瓦斯有毒评论分类数据集-2019
吉吉瓦斯有毒评论分类数据集-2019 数据来源:互联网公开数据 标签:吉吉瓦斯,有毒评论,自然语言处理,机器学习,偏见检测,评论分类,文本分析,社交媒体 数据概述:... -
Reddit社群-真实生活-幽默内容互动数据集-2022年4月1日
Reddit社群-真实生活-幽默内容互动数据集-2022年4月1日 数据来源:互联网公开数据 标签:Reddit,社交媒体,幽默,文化,情感,网络社区,文本分析,内容分析,meirl,me_irl 数据概述:... -
青空文庫日文文学语料库数据集
青空文庫日文文学语料库数据集 数据来源:互联网公开数据 标签:日文文学,语料库,文本分析,自然语言处理,教育,文化研究 数据概述: 本数据集是将青空文庫(Aozora Bunko)中收录的日本文学文本编译成更易于使用的CSV格式。包含的经典文学作品涵盖了多个历史时期,为研究日文文本提供了丰富的资源。数据集旨在为研究日文写作和语言学项目提供基础数据支持。... -
基于阅读理解的对话关系抽取数据集-QaZre-thedevastator
基于阅读理解的对话关系抽取数据集-QaZre-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,关系抽取,阅读理解,知识图谱,对话,机器学习,文本分析 数据概述:... -
arXiv论文标题摘要与标签数据集
arXiv论文标题摘要与标签数据集 数据来源:互联网公开数据 标签:arXiv,科研论文,学术研究,机器学习,数据分类,文本分析,教育 数据概述: 本数据集受到了arXiv论文摘要数据集的启发,可以视为其逻辑扩展。数据集包含536,914篇研究论文的标题和摘要,适用于多标签分类任务。数据通过爬取arXiv官方元数据获取,而非使用原始的arXiv... -
DAIGT-SaveEverything人工智能生成文本检测数据集2023-chg0901
DAIGT-SaveEverything人工智能生成文本检测数据集2023-chg0901 数据来源:互联网公开数据 标签:AI检测,文本分析,机器学习,数据集,生成文本,检测技术,科研,竞赛 数据概述: 本数据集包含使用DAIGT-... -
推特表情符号数据集-2021-mexwell
推特表情符号数据集-2021-mexwell 数据来源:互联网公开数据 标签:Twemoji,推特,表情符号,机器学习,数据集,图像识别,文本分析 数据概述:... -
社交媒体仇恨言论检测多模态数据集-图文内容-测试与验证
社交媒体仇恨言论检测多模态数据集-图文内容-测试与验证 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,图像识别,文本分析,多模态学习,深度学习,图像分类,文本分类,自然语言处理,机器学习,人工智能,内容审核 数据概述:... -
Kaggle论坛话题标题语义向量数据集
Kaggle论坛话题标题语义向量数据集 数据来源:互联网公开数据 标签:Kaggle,论坛,话题,标题,语义,向量,自然语言处理,文本分析,机器学习 数据概述: 本数据集包含了从Kaggle平台上抓取的论坛话题标题,并使用all-... -
GPT-3Ada嵌入向量评分Jigsaw毒性严重程度数据集-vslaykovsky
GPT-3Ada嵌入向量评分Jigsaw毒性严重程度数据集-vslaykovsky 数据来源:互联网公开数据 标签:GPT-3,Ada,嵌入向量,文本分析,挑战数据集,毒性评论,评分,机器学习 数据概述: 本数据集包含使用GPT-3 Ada模型生成的文本嵌入向量,这些向量是针对“Jigsaw Toxic Severity... -
维基百科主题与类别数据集
维基百科主题与类别数据集 数据来源:互联网公开数据 标签:维基百科,主题标签,类别分类,NLP,文本分析,数据挖掘,知识图谱,元数据,语义分析 数据概述: 本数据集基于维基百科页面标题及其分类信息,包含超过2300万个主题及其相关类别。每个主题(如“Anarchism”)都附带丰富的元数据,包括所属类别(如“Political... -
Jigsaw竞赛英语翻译文本数据集
Jigsaw竞赛英语翻译文本数据集 数据来源:互联网公开数据 标签:Jigsaw, 翻译, 文本, 英语, 自然语言处理, 文本分析, 机器学习, 竞赛, 负面评论, 错误标识 数据概述:... -
安然公司员工电子邮件数据集-合规性审计与风险分析-2000-2002
安然公司员工电子邮件数据集-合规性审计与风险分析-2000-2002 数据来源:互联网公开数据 标签:安然公司,电子邮件,合规性,风险管理,审计,金融,通信,文本分析,历史数据 数据概述:... -
YouTube游戏和应用中虚拟形象视频转录文本数据集
YouTube游戏和应用中虚拟形象视频转录文本数据集 数据来源:互联网公开数据 标签:YouTube,视频转录,虚拟形象,游戏,应用,自然语言处理,文本分析,情感分析 数据概述: 本数据集包含从YouTube视频中提取的音频转录文本。视频地址通过youtube-data-... -
-
移动应用商店应用描述文本分析数据集-sagol79
移动应用商店应用描述文本分析数据集-sagol79 数据来源:互联网公开数据 标签:移动应用,应用描述,文本分析,自然语言处理,机器学习,应用商店,文本挖掘,NLP,应用分类 数据概述:... -
Reddit论坛用户评论与回复关系数据集-2007-2014
Reddit论坛用户评论与回复关系数据集-2007-2014 数据来源:互联网公开数据 标签:Reddit, 论坛, 评论, 回复, 社交媒体, 自然语言处理, 文本分析, 关键词提取 数据概述: 本数据集包含从 2007 年至 2014 年间,Reddit 论坛上随机抽取的 400... -
雅虎问答10类别NLP数据集
雅虎问答10类别NLP数据集 数据来源:互联网公开数据 标签:问答分类,自然语言处理,NLP,文本分类,问答系统,文本分析,机器学习,主题分类 数据概述:...