找到628个数据集

标签: 机器翻译

过滤结果
  • 英语-泰语平行语料库

    2025年4月20日   

    英语-泰语平行语料库 数据来源:互联网公开数据 标签:平行语料库,机器翻译,自然语言处理,英语,泰语,跨语言分析,文本对齐,翻译模型训练 数据概述: 本数据集是一个大型的英语-...
    packageimg
  • 电影评论及其法语翻译数据集

    2025年4月20日   

    电影评论及其法语翻译数据集 数据来源:互联网公开数据 标签:电影评论,IMDb,法语翻译,文本处理,情感分析,机器翻译,跨语言分析 数据概述: 本数据集基于Aditya、P.等人的IMDb电影评论数据集构建,包含多部电影的评论数据,每条评论对应一部特定电影。数据集经过清洗和规则化处理,以确保数据质量,并使用Google Translate...
    packageimg
  • Flickr8k图像日语翻译数据集

    2025年4月19日   

    Flickr8k图像日语翻译数据集 数据来源:互联网公开数据 标签:图像标注,日语翻译,机器翻译,图像识别,自然语言处理,图像描述,Flickr8k,多模态,文本数据 数据概述:...
    packageimg
  • 印度语维基百科文章问答对数据集-问答生成-36-6k

    2025年4月19日   

    印度语维基百科文章问答对数据集-问答生成-36-6k 数据来源:互联网公开数据 标签:问答对,印度语,维基百科,自然语言处理,机器翻译,问答生成,文本数据,语言学习 数据概述:...
    packageimg
  • 多语言平行语料库数据集

    2025年4月19日   

    多语言平行语料库数据集 数据来源:互联网公开数据 标签:多语言,平行语料库,翻译,机器翻译,自然语言处理,跨语言数据分析 数据概述: 本数据集是一个多语言平行语料库,包含英语与其他多种语言(如俄语、哈萨克语、西班牙语、意大利语和法语)之间的对照翻译数据。数据集来源于对原始的databricks-...
    packageimg
  • 英语-印地语句子翻译数据集

    2025年4月17日   

    英语-印地语句子翻译数据集 数据来源:互联网公开数据 标签:语言翻译,英语,印地语,机器翻译,自然语言处理,双语句对,文本对齐 数据概述: 本数据集来自Helsinki NLP Opus...
    packageimg
  • 大型语言模型训练合成数据-Synthia-v1-3数据集

    2025年4月17日   

    大型语言模型训练合成数据-Synthia-v1-3数据集 数据来源:互联网公开数据 标签:大型语言模型,合成数据,训练数据,自然语言处理,文本生成,机器翻译,问答系统,对话生成 数据概述: 本数据集是专为大型语言模型(LLM)开发和改进而设计的合成训练数据集,主要用于研究和优化migel...
    packageimg
  • 英语-伊博语圣经数据集

    2025年4月17日   

    英语-伊博语圣经数据集 数据来源:互联网公开数据 标签:机器翻译,伊博语,圣经文本,英语,语言数据,语料库,宗教文本 数据概述: 本数据集为英语和伊博语的圣经文本对齐数据,主要用于英语至伊博语的机器翻译研究。数据来源于Jehovah...
    packageimg
  • 古典藏文-英文翻译数据集

    2025年4月17日   

    古典藏文-英文翻译数据集 数据来源:互联网公开数据 标签:古典藏文,英文翻译,机器翻译,语料库,语言学研究,MT模型训练 数据概述: 本数据集包含古典藏文句子及其对应的英文翻译,每对数据由古典藏文句子和其英文翻译组成。数据集中的文本来源于Lotsawa...
    packageimg
  • IWSLT2017英语-中文翻译数据集

    2025年4月15日   

    IWSLT2017英语-中文翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,NLP,多语种,英中翻译,语言模型训练,语料库 数据概述 本数据集是IWSLT2017翻译任务的英语-中文平行语料数据集,主要用于机器翻译研究和多语言自然语言处理任务。数据集包含三个独立的CSV文件,分别存储训练集、验证集和测试集。数据来源于Hugging...
    packageimg
  • 韩国语翻译数据集

    2025年4月15日   

    韩国语翻译数据集 数据来源:互联网公开数据 标签:韩国语,翻译,NLP模型,机器翻译,自然语言处理,DeepL API,英译韩,语言学习 数据概述: 本数据集提供了一组从英语翻译成韩国语的文本数据,适用于GPT4ALL、Dolly、Vicuna等NLP模型的训练与研究。数据集由nlpai-lab团队整理,通过DeepL...
    packageimg
  • 英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印

    2025年4月15日   

    英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印 数据来源:互联网公开数据 标签:语言模型,自然语言处理,机器翻译,印地语,文本生成,指令,NVIDIA,HelpSteer,数据集 数据概述: 本数据集是NVIDIA...
    packageimg
  • 多语言软件缺陷报告及其翻译数据集1963-2025

    2025年4月15日   

    多语言软件缺陷报告及其翻译数据集1963-2025 数据来源:互联网公开数据 标签:多语言,软件缺陷报告,翻译,自然语言处理,机器翻译,跨语言分析 数据概述:...
    packageimg
  • 多语言平行语料库释义数据集-73种语言

    2025年4月15日   

    多语言平行语料库释义数据集-73种语言 数据来源:互联网公开数据 标签:平行语料库,释义,自然语言处理,机器翻译,多语言,文本数据,语言学,文本分析 数据概述: 本数据集收录了73种语言的句子释义语料库,名为TaPaCo。该语料库由Yves...
    packageimg
  • 德语到英语机器翻译数据集

    2025年4月15日   

    德语到英语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,德语,英语,数据集,PyTorch,自然语言处理,翻译模型 数据概述: 本数据集包含用于机器翻译的德语到英语句子对,旨在为翻译模型的训练和评估提供数据支持。数据集由28975条训练数据和1000条测试数据组成,涵盖了多样化的语言表达和上下文。 数据用途概述:...
    packageimg
  • 维基百科名人传记翻译数据集

    2025年4月15日   

    维基百科名人传记翻译数据集 数据来源:互联网公开数据 标签:机器翻译,性别准确性,上下文信息,英文,西班牙文,德文,语言处理,数据集分析 数据概述:...
    packageimg
  • 古兰经语料库1963-2021

    2025年4月15日   

    古兰经语料库1963-2021 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,宗教文本,机器翻译,文本生成,文本摘要,宗教研究 数据概述: 本数据集收录了古兰经的完整文本,涵盖了从1963年至2021年的版本。数据包含了古兰经的每一条经文,以及相应的章节和节编号,为宗教研究、文本分析和自然语言处理提供了重要的基础材料。 数据用途概述:...
    packageimg
  • 多语言印地语NLP数据集

    2025年4月15日   

    多语言印地语NLP数据集 数据来源:互联网公开数据 标签:印地语NLP,自然语言处理,机器翻译,情感分析,命名实体识别,文本摘要,语言理解,多语言文本,新闻文章,社交媒体,对话文本 数据概述:...
    packageimg
  • 英语-法语翻译数据集

    2025年4月15日   

    英语-法语翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,英语,法语,文本数据,语言对,翻译模型 数据概述: 本数据集包含138,000对英语-法语翻译的句子对。每对数据由一个英语句子及其对应的法语翻译构成。数据集提供了丰富的翻译实例,涵盖了多种主题和语言风格。 数据用途概述:...
    packageimg
  • 西班牙语-英语翻译语料库数据集

    2025年4月15日   

    西班牙语-英语翻译语料库数据集 数据来源:互联网公开数据 标签:西班牙语,英语,翻译,机器翻译,语言模型,自然语言处理,跨语言文本 数据概述:...
    packageimg