找到4个数据集

分类: 公开数据 标签: 双语语料

过滤结果
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日 30 40 25

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • EN_MNE_EN_THA_Authentic_human_translations_corpora_真实人类翻译语料库数据

    2025年12月27日 30 114 105

    数据集概述 本数据集包含EN-MNE、EN-THA两个真实人类翻译语料库,数据按研究方法选取并处理了长度在100-150字符的句子对,用于翻译相关研究。数据集仅含一个文件,无目录结构及训练测试、数据标签等拆分。 文件详解 文件名称:data.xlsx 文件格式:XLSX 字段映射介绍:包含EN-MNE、EN-...
    packageimg
  • CL_UVigoMED生物医药摘要双语语料库

    2025年11月27日 30 56 1

    数据集概述 该数据集是一个双语语料库,核心内容为从MEDLINE数据库提取的英文与西班牙文生物医药摘要。数据集包含两个文件,无目录结构,为自然语言处理(NLP)等相关领域的研究提供基础语料支持。 文件详解 文件名称: CL_UvigoMED_corpus_creation.png 文件格式: PNG (.png) 内容说明:...
    packageimg
  • 印尼语_米南加保语平行语料库

    2025年11月26日 30 102 25

    数据集概述 该数据集为印尼语与米南加保语的平行语料库,包含对应语言的句子对,覆盖日常语言使用的多场景与主题,支持机器学习在语言翻译领域的应用,助力自然语言处理研究与翻译应用开发。 文件详解 该数据集由1个CSV文件组成,具体说明如下: - 文件名称: Parallel Corpus Indonesian-Minang/original...
    packageimg