-
大型语言模型训练合成数据-Synthia-v1-3数据集
大型语言模型训练合成数据-Synthia-v1-3数据集 数据来源:互联网公开数据 标签:大型语言模型,合成数据,训练数据,自然语言处理,文本生成,机器翻译,问答系统,对话生成 数据概述: 本数据集是专为大型语言模型(LLM)开发和改进而设计的合成训练数据集,主要用于研究和优化migel... -
英语-伊博语圣经数据集
英语-伊博语圣经数据集 数据来源:互联网公开数据 标签:机器翻译,伊博语,圣经文本,英语,语言数据,语料库,宗教文本 数据概述: 本数据集为英语和伊博语的圣经文本对齐数据,主要用于英语至伊博语的机器翻译研究。数据来源于Jehovah... -
古典藏文-英文翻译数据集
古典藏文-英文翻译数据集 数据来源:互联网公开数据 标签:古典藏文,英文翻译,机器翻译,语料库,语言学研究,MT模型训练 数据概述: 本数据集包含古典藏文句子及其对应的英文翻译,每对数据由古典藏文句子和其英文翻译组成。数据集中的文本来源于Lotsawa... -
IWSLT2017英语-中文翻译数据集
IWSLT2017英语-中文翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,NLP,多语种,英中翻译,语言模型训练,语料库 数据概述 本数据集是IWSLT2017翻译任务的英语-中文平行语料数据集,主要用于机器翻译研究和多语言自然语言处理任务。数据集包含三个独立的CSV文件,分别存储训练集、验证集和测试集。数据来源于Hugging... -
韩国语翻译数据集
韩国语翻译数据集 数据来源:互联网公开数据 标签:韩国语,翻译,NLP模型,机器翻译,自然语言处理,DeepL API,英译韩,语言学习 数据概述: 本数据集提供了一组从英语翻译成韩国语的文本数据,适用于GPT4ALL、Dolly、Vicuna等NLP模型的训练与研究。数据集由nlpai-lab团队整理,通过DeepL... -
英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印
英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印 数据来源:互联网公开数据 标签:语言模型,自然语言处理,机器翻译,印地语,文本生成,指令,NVIDIA,HelpSteer,数据集 数据概述: 本数据集是NVIDIA... -
多语言软件缺陷报告及其翻译数据集1963-2025
多语言软件缺陷报告及其翻译数据集1963-2025 数据来源:互联网公开数据 标签:多语言,软件缺陷报告,翻译,自然语言处理,机器翻译,跨语言分析 数据概述:... -
多语言平行语料库释义数据集-73种语言
多语言平行语料库释义数据集-73种语言 数据来源:互联网公开数据 标签:平行语料库,释义,自然语言处理,机器翻译,多语言,文本数据,语言学,文本分析 数据概述: 本数据集收录了73种语言的句子释义语料库,名为TaPaCo。该语料库由Yves... -
德语到英语机器翻译数据集
德语到英语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,德语,英语,数据集,PyTorch,自然语言处理,翻译模型 数据概述: 本数据集包含用于机器翻译的德语到英语句子对,旨在为翻译模型的训练和评估提供数据支持。数据集由28975条训练数据和1000条测试数据组成,涵盖了多样化的语言表达和上下文。 数据用途概述:... -
维基百科名人传记翻译数据集
维基百科名人传记翻译数据集 数据来源:互联网公开数据 标签:机器翻译,性别准确性,上下文信息,英文,西班牙文,德文,语言处理,数据集分析 数据概述:... -
古兰经语料库1963-2021
古兰经语料库1963-2021 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,宗教文本,机器翻译,文本生成,文本摘要,宗教研究 数据概述: 本数据集收录了古兰经的完整文本,涵盖了从1963年至2021年的版本。数据包含了古兰经的每一条经文,以及相应的章节和节编号,为宗教研究、文本分析和自然语言处理提供了重要的基础材料。 数据用途概述:... -
多语言印地语NLP数据集
多语言印地语NLP数据集 数据来源:互联网公开数据 标签:印地语NLP,自然语言处理,机器翻译,情感分析,命名实体识别,文本摘要,语言理解,多语言文本,新闻文章,社交媒体,对话文本 数据概述:... -
英语-法语翻译数据集
英语-法语翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,英语,法语,文本数据,语言对,翻译模型 数据概述: 本数据集包含138,000对英语-法语翻译的句子对。每对数据由一个英语句子及其对应的法语翻译构成。数据集提供了丰富的翻译实例,涵盖了多种主题和语言风格。 数据用途概述:... -
西班牙语-英语翻译语料库数据集
西班牙语-英语翻译语料库数据集 数据来源:互联网公开数据 标签:西班牙语,英语,翻译,机器翻译,语言模型,自然语言处理,跨语言文本 数据概述:... -
泰米尔语-问答数据集
泰米尔语-问答数据集 数据来源:互联网公开数据 标签:泰米尔语,问答系统,自然语言处理,NLP,机器翻译,QA挑战,斯坦福SQuAD 数据概述: 本数据集是为Chaii Hindi和泰米尔语问答挑战(Chaii Hindi and Tamil QA... -
福尔摩斯的矛盾增强数据集1963-2021
福尔摩斯的矛盾增强数据集1963-2021 数据来源:互联网公开数据 标签:自然语言处理,数据增强,矛盾检测,机器翻译,同义词替换,测试集增强,文本分析 数据概述:... -
波斯语文本蕴含推理数据集FarsTail
波斯语文本蕴含推理数据集FarsTail 数据来源:互联网公开数据 标签:自然语言处理,文本蕴含,NLI,波斯语,波斯文,Farsi,数据集,机器翻译,语言学 数据概述:... -
乌尔都-普什图双语词典数据集
乌尔都-普什图双语词典数据集 数据来源:互联网公开数据 标签:乌尔都语,普什图语,双语词典,自然语言处理,机器翻译,语言研究 数据概述: 乌尔都-... -
约鲁巴语到英语机器翻译数据集
约鲁巴语到英语机器翻译数据集 数据来源:互联网公开数据 标签:约鲁巴语,英语,机器翻译,低资源语言,自然语言处理,数据集,模型训练,多领域应用 数据概述:... -
英语-印地语句子数据集
英语-印地语句子数据集 数据来源:互联网公开数据 标签:英语,印地语,句子翻译,语言学习,文本分析,机器翻译,双语数据集 数据概述: 本数据集包含2718条英语句子及其对应的印地语翻译,旨在为语言学习、文本分析和机器翻译研究提供高质量的双语数据。数据集中的每对句子均经过仔细校对,确保翻译的准确性和一致性。 数据用途概述:...