-
孟加拉语日常对话数据集
孟加拉语日常对话数据集 数据来源:互联网公开数据 标签:孟加拉语,日常对话,语言模型,自然对话,语境感知,人类交流,对话数据集,文本分析,人工智能 数据概述: 本数据集旨在解决为自然、语境感知且类人对话调整语言模型的挑战。数据集包含超过20,000次对话,全面展示了孟加拉国的各种日常生活情境下的交流,涵盖了广泛的社会互动场景。... -
星际编码器自指令数据集-自然语言处理指令生成-2024
星际编码器自指令数据集-自然语言处理指令生成-2024 数据来源:互联网公开数据 标签:自然语言处理,指令生成,语言模型,机器学习,数据集,星际编码器,Stanford Alpaca,CC0 数据概述:... -
生成式AI推特数据集10K
生成式AI推特数据集10K 数据来源:互联网公开数据 标签:生成式AI,推特数据,自然语言处理,情感分析,语言模型,ChatGPT,Google Bard,多样化内容,现实对话 数据概述: 本数据集收录了超过10,000条由高级语言模型(包括ChatGPT和Google... -
中文机器阅读理解数据集2018
中文机器阅读理解数据集2018 数据来源:互联网公开数据 标签:机器阅读理解,中文,NLP,问答系统,文本理解,文本推理,语言模型 数据概述:... -
德语英语翻译数据集255817样本
德语英语翻译数据集255817样本 数据来源:互联网公开数据 标签:德语,英语,翻译,自然语言处理,深度学习,数据预处理,语言模型 数据概述:... -
纳粹相关言论数据集1960-2023
纳粹相关言论数据集1960-2023 数据来源:互联网公开数据 标签:纳粹言论,Alt-Right, offensive data, 恶意内容, 语言模型, 数据预处理, 滥用检测 数据概述: 本数据集收录了1960年至2023年间与纳粹相关、Alt-... -
宇宙新闻数据集2024年5月
宇宙新闻数据集2024年5月 数据来源:互联网公开数据 标签:宇宙新闻,太空行业,商业,民用,发射,军事,意见文章,自然语言处理,语言模型 数据概述:... -
-
西班牙语-英语翻译语料库数据集
西班牙语-英语翻译语料库数据集 数据来源:互联网公开数据 标签:西班牙语,英语,翻译,机器翻译,语言模型,自然语言处理,跨语言文本 数据概述:... -
逻辑推理能力提升数据集1963-2021
逻辑推理能力提升数据集1963-2021 数据来源:互联网公开数据 标签:逻辑推理,语言模型,训练数据,LLM,Platypus2,机器学习,教育 数据概述: 本数据集由garage-... -
归纳推理数据集
归纳推理数据集 数据来源:互联网公开数据 标签:归纳推理,语言模型,逻辑推理,人类行为,语义内容,机器学习,数据科学 数据概述: 本数据集包含了用于研究语言模型在归纳推理任务中表现的数据。数据集来源于PNAS/Nexus期刊上Andrew K.... -
-
LLM恢复对齐数据集
LLM恢复对齐数据集 数据来源:互联网公开数据 标签:语言模型,恢复对齐,自然语言处理,NLP,生成模型,对齐评估,文本生成 数据概述 本数据集由Gemma-7b-it模型生成,使用最大token长度设置为256。数据集包含两部分内容:原始文本(document)和重写文本(rewritten)。原始文本来源于Hugging... -
写作训练数据集
写作训练数据集 数据来源:互联网公开数据 标签:写作训练,学生作文,人工智能生成文本,语言模型,竞赛数据,文本检测 数据概述: 本数据集包含约1398篇作文,其中包括学生撰写的作品和大型语言模型(LLM)生成的文本。该数据集专为“LLM -... -
印度法律与法案数据集1074-至今
印度法律与法案数据集1074-至今 数据来源:互联网公开数据 标签:印度法律,法案,历史,法律研究,文本分析,语言模型,政策分析 数据概述:... -
ChatGPT-4问答训练数据集-多领域问答场景
ChatGPT-4问答训练数据集-多领域问答场景 数据来源:互联网公开数据 标签:ChatGPT, GPT-4, 问答, 语言模型, 训练数据, 自然语言处理, 人工智能, 机器学习, 文本生成 数据概述:... -
摩洛哥阿拉伯语Darija语言任务与平行翻译数据集
摩洛哥阿拉伯语Darija语言任务与平行翻译数据集 数据来源:互联网公开数据 标签:摩洛哥阿拉伯语, Darija, 机器翻译, 语言模型, 平行语料库, 自然语言处理, 多语言学习 数据概述:... -
小学数学难题训练数据集-小学阶段数学问题
小学数学难题训练数据集-小学阶段数学问题 数据来源:互联网公开数据 标签:数学问题,小学教育,逻辑推理,语言模型,教育数据集,GSM8K,数学训练 数据概述: 本数据集包含一系列小学阶段的数学问题,旨在评估和提高语言模型的数学推理能力。该数据集是GSM8K的一个更具挑战性的变体,通过将数字替换为更大且较少遇到的数值来增加难度。 数据格式:... -
-
俄语关系抽取Rebel数据集去重合并版
俄语关系抽取Rebel数据集去重合并版 数据来源:互联网公开数据 标签:俄语,关系抽取,自然语言处理,文本数据,机器学习,Rebel,数据集,语言模型 数据概述: 本数据集为俄语版Rebel数据集,用于关系抽取任务。原始数据集由Hugging...