-
基于GPT-2生成的灾难推文数据集
基于GPT-2生成的灾难推文数据集 数据来源:互联网公开数据 标签:NLP,自然语言处理,灾难推文,数据增强,GPT-2,文本生成 数据概述:... -
印度象棋策略书籍文本与游戏数据集1963-2021
印度象棋策略书籍文本与游戏数据集1963-2021 数据来源:互联网公开数据 标签:国际象棋,策略书籍,NLP,文本分析,游戏分析,主题建模,文档聚类,文本生成 数据概述: 本数据集收录了国际象棋大师Edward... -
人类与机器生成文本对比研究数据集
人类与机器生成文本对比研究数据集 数据来源:互联网公开数据 标签:机器学习,文本生成,自然语言处理,文本检测,文学作品,编程代码 数据概述: 本数据集包含人类撰写和由大型语言模型(GPT-4 和... -
动漫GPT-San动漫剧情摘要生成模型训练数据集
动漫GPT-San动漫剧情摘要生成模型训练数据集 数据来源:互联网公开数据 标签:动漫,GPT-2,自然语言处理,文本生成,人工智能,机器学习,动漫剧情,摘要生成 数据概述: 本数据集是用于训练动漫GPT-... -
英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印
英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印 数据来源:互联网公开数据 标签:语言模型,自然语言处理,机器翻译,印地语,文本生成,指令,NVIDIA,HelpSteer,数据集 数据概述: 本数据集是NVIDIA... -
土耳其语诗歌文本生成数据集
土耳其语诗歌文本生成数据集 数据来源:互联网公开数据 标签:土耳其语,诗歌,文本生成,自然语言处理,NLP,诗歌创作,语言模型,文学 数据概述: 本数据集包含了7本土耳其语诗歌书籍,数据将每本书的诗歌内容拼接成一个单独的文本列。这些诗歌涵盖了不同的主题和风格,反映了土耳其文学的多样性。 数据用途概述:... -
NLP数据增强工具库离线数据集1-0版数据集
NLP数据增强工具库离线数据集1-0版数据集 数据来源:互联网公开数据 标签:NLP,文本增强,数据扩充,机器学习,自然语言处理,文本生成,数据集 数据概述:... -
异世界轻小说标题与简介数据集
异世界轻小说标题与简介数据集 数据来源:互联网公开数据 标签:轻小说,异世界,标题生成,简介生成,文本生成,AI,数据收集,爬虫技术 数据概述:... -
梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集
梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集 数据来源:互联网公开数据 标签:梵语, 史诗, 翻译, 语言学, 文本, 诗歌, 语料库, 机器学习, 文本生成 数据概述: 本数据集是一个梵语-英语翻译语料库,包含了从M. N.... -
DatabricksDolly15k-基于指令的大型语言模型训练数据集
DatabricksDolly15k-基于指令的大型语言模型训练数据集 数据来源:互联网公开数据 标签:大型语言模型,指令遵循,数据增强,自然语言处理,文本生成,分类,问答,摘要,信息提取,创意写作,开源数据集 数据概述: Databricks Dolly... -
古兰经语料库1963-2021
古兰经语料库1963-2021 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,宗教文本,机器翻译,文本生成,文本摘要,宗教研究 数据概述: 本数据集收录了古兰经的完整文本,涵盖了从1963年至2021年的版本。数据包含了古兰经的每一条经文,以及相应的章节和节编号,为宗教研究、文本分析和自然语言处理提供了重要的基础材料。 数据用途概述:... -
健康与心理调查问卷数据集
健康与心理调查问卷数据集 数据来源:互联网公开数据 标签:健康调查,心理问卷,调查问卷,健康问题,心理问题,教育研究,文本生成 数据概述: 本数据集包含来自旧教科书和当前问卷中的健康相关问题。这些问题是仅作为基础设计的,旨在为后续的数据处理、分类和生成文本提供基础。数据集涵盖了广泛的身体健康和心理健康方面的调查问题,为研究和教育提供了丰富的资源。... -
Gemma7B重写新闻数据集
Gemma7B重写新闻数据集 数据来源:互联网公开数据 标签:新闻重写,自然语言处理,文本生成,机器学习,数据集,文本分析 数据概述: 本数据集包含使用Gemma 7B模型重写的新闻文章集合。数据集涵盖了广泛的主题和来源,提供了原始新闻内容及其对应的Gemma... -
-
常见鸟类名称数据集
常见鸟类名称数据集 数据来源:互联网公开数据 标签:鸟类名称,文本生成,RNN,LSTM,深度学习,自然语言处理,项目数据集 数据概述: 本数据集包含10976个常见鸟类名称,来源于维基百科的常见鸟类名称列表。数据集以CSV格式提供,包含两列信息:ID(整数类型),为每个鸟类名称分配的唯一标识;Common Bird... -
LLM科学考试数据集-多样化数据源整合-竞赛专用
LLM科学考试数据集-多样化数据源整合-竞赛专用 数据来源:互联网公开数据 标签:LLM, 科学考试, 数据集, 机器学习, 自然语言处理, 文本生成, 考试, 训练数据, MMLU, ChatGPT, Wikipedia 数据概述: 本数据集是为 LLM (大型语言模型, Large Language Model) 科学考试竞赛准备的, 包含了 6... -
印度简短笑话娱乐与分析数据集
印度简短笑话娱乐与分析数据集 数据来源:互联网公开数据 标签:简短笑话,娱乐,自然语言处理,情感分析,机器学习,文本生成 数据概述: 本数据集由Fraser... -
Anthropic公司Claude模型生成的1000篇论文数据集-说服性写作练习-多主题-时间跨度未知
Anthropic公司Claude模型生成的1000篇论文数据集-说服性写作练习-多主题-时间跨度未知 数据来源:互联网公开数据 标签:人工智能,自然语言处理,文本生成,写作,Claude模型,说服性写作,论文,Anthropic 数据概述: 本数据集包含了由Anthropic公司开发的Claude-... -
Reddit抑郁主题清理文本数据集-2021
Reddit抑郁主题清理文本数据集-2021 数据来源:互联网公开数据 标签:Reddit,抑郁,文本生成,数据清理,心理健康,社交媒体,文本数据 数据概述:... -
多语言大型语言模型生成文本数据集1963-2021
多语言大型语言模型生成文本数据集1963-2021 数据来源:互联网公开数据 标签:大型语言模型,多语言,文本生成,机器学习,自然语言处理,人工智能,深度学习,神经网络,数据科学,文本分类,语言理解,文本挖掘 数据概述:...