找到984个数据集

标签: 机器翻译

过滤结果
  • AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

    2026年1月29日   

    数据集概述 本数据集是面向神经机器翻译任务的多语言平行文本集合,包含从法语到丰贝语(多哥语言)、法语到埃维语(贝宁语言)的平行句子对,总计七万余条标注数据,适用于机器翻译和句子分类任务,由AI4D倡议贡献。 文件详解 文件名称:French_to_fongbe.csv 文件格式:CSV...
    packageimg
  • Flexico_Source_自适应可持续机器翻译实验复现数据

    2026年1月29日   

    数据集概述 本数据集用于复现论文“Flexico: Sustainable Machine Translation via Self-Adaptation”的研究结果,包含6个文件,涉及香港新闻和opus_eng_fra数据集的实验数据,涵盖聚类距离、时间统计等机器翻译自适应相关指标,支持可持续翻译模型的实验验证。 文件详解 香港新闻数据集相关文件...
    packageimg
  • MUST_LT_Based_学生翻译评估语料库数据_2023版

    2026年1月28日   

    数据集概述 本数据集包含MUST-LT语料库中的学生翻译评估数据,用于搭配翻译研究。数据源自Vaičenonienė, J. 2023年关于MUST-LT学习者翻译语料库的搭配翻译案例分析研究,为翻译教学与研究提供实证数据支持。 文件详解 文件名称:MUST-LT studentų vertimai.docx 文件格式:DOCX...
    packageimg
  • ChatGPT_Based_HSK3词汇句子翻译准确性研究数据

    2026年1月28日   

    数据集概述 本数据集围绕HSK3词汇句子的ChatGPT翻译准确性展开研究,包含一份文档文件,记录了相关研究的核心数据内容,可用于分析ChatGPT在HSK3词汇句子翻译任务中的表现。 文件详解 文件名称:Data CHATGPT dan KAMUS BESAR.docx 文件格式:DOCX...
    packageimg
  • 数据2024_MT_LLM_英到斯洛文尼亚语翻译质量评估数据集

    2026年1月28日   

    数据集概述 本数据集为大语言模型(LLM)与传统神经机器翻译(NMT)的评估任务制备,包含7个系统(3个MT系统、4个LLM AI助手)的英到斯洛文尼亚语翻译结果,原始源文本与翻译同步采集以避免数据泄漏。 文件详解 翻译评估表格文件...
    packageimg
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日   

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

    2026年1月27日   

    数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
    packageimg
  • WOKIE_Based_SKOS叙词表LLM自动化翻译系统支持数据

    2026年1月27日   

    数据集概述 本数据集为WOKIE项目“FAIR in allen Sprachen”的附录数据,包含基于LLM的SKOS叙词表自动化翻译系统相关文件,涉及多语言翻译结果、翻译详情及原始叙词表等内容,共10个文件,用于支持该翻译系统的相关研究与应用。 文件详解 RDF格式文件(80.0%) 文件名称:unesco_reduced_en-...
    packageimg
  • 数据85_Business_Word_中印尼商务词汇多平台翻译数据

    2026年1月27日   

    数据集概述 本数据集包含85条商务相关中文词汇的印尼语翻译结果,通过Google Translate、Baidu Translate和DeepL三个翻译工具生成,为商务场景下的中印尼词汇翻译提供多平台对比参考,共含1个文件。 文件详解 文件名称:85 Chinese-Indonesian Business Word Translations.xlsx...
    packageimg
  • WMT17_Based_生物医学翻译任务Scielo测试与黄金数据集

    2026年1月27日   

    数据集概述 本数据集为第二届机器翻译会议(WMT'17)生物医学翻译任务的测试与黄金数据集,包含测试文件、黄金文件及使用GMA工具生成的自动对齐文件,数据来源于Scielo数据库,以压缩包形式提供。 文件详解 文件名称:wmt17-biomedical-scielo.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类文件:测试文件(Test...
    packageimg
  • ClinSpEn_CT_Based_平行英西生物医学术语数据_2022

    2026年1月26日   

    数据集概述 本数据集为ClinSpEn-Clinical Terms子任务的样本、测试及背景数据,方向为西班牙语到英语(ES>EN)翻译。术语源自医学文献和临床记录,聚焦疾病、症状等类别,由专业医疗译者翻译修订,支持生物医学领域机器翻译系统开发与评估。 文件详解...
    packageimg
  • WMT16_Based_Medline生物医学翻译任务平行语料数据集

    2026年1月25日   

    数据集概述 本数据集为WMT'16生物医学翻译任务提供的平行语料,源自Medline/PubMed数据库,包含西班牙语-英语、法语-英语、葡萄牙语-英语三种语言对的平行文本数据,支持生物医学领域的机器翻译模型训练与评估。 文件详解 文件名称:pubmed_en_pt.txt.zip 文件格式:ZIP 字段映射介绍:包含英语-葡萄牙语生物医学平行文本数据...
    packageimg
  • Regesta_Imperii_Based弗里德里希三世皇帝特许状登记册自动化翻译数据集

    2026年1月18日   

    数据集概述 本数据集提供弗里德里希三世皇帝(1440-1493年在位)特许状登记册的英文自动化翻译内容,源自Regesta Imperii项目。翻译基于DeepL神经机器翻译技术,经专业术语词汇表补充及人工编辑,包含第1-36卷的简版登记册摘要,助力国际用户查阅中世纪皇权特许状文献。 文件详解 文件名称:Gesamt1.xlsx 文件格式:XLSX...
    packageimg
  • 低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0

    2026年1月21日   

    数据集概述 本数据集包含肯尼亚三种本土语言(Kidaw'ida、Kalenjin、Dholuo)与斯瓦希里语的平行语料库,每种语料库平均含三万句对,用于训练机器翻译模型,支持斯瓦希里语与本土语言间的翻译,由USIU-Africa等机构研究者创建,将持续更新优化。 文件详解 文件名称:waleghwa/low-resource-language-...
    packageimg
  • JOST_专业翻译杂志_非二元性别出柜报道中性别公平语言策略的翻译研究数据

    2026年1月21日   

    数据集概述 本数据集为论文“Translating Non-Binary Coming-Out Reports: Gender-Fair Language Strategies and Use in News...
    packageimg
  • Thucydides_Persian_修昔底德著作波斯语译本关键术语对应数据

    2026年1月20日   

    数据集概述 本数据集系统整理了修昔底德《伯罗奔尼撒战争史》波斯语译本中“Barbarians”“Persians”“Medes”三类关键术语的对应翻译。通过提取希腊原文术语(如βάρβαρος、Μῆδος等),匹配穆罕默德·哈桑·洛特菲译本中的波斯语表达,包含原文出处、波斯语译文及英文回译等信息,共9个结构化文件,支持古典文献翻译研究与术语对比分析。...
    packageimg
  • TradutorNós_Based_加利西亚语EMP多词表达自动翻译评估数据

    2026年1月20日   

    数据集概述 本数据集用于评估TradutorNós翻译工具对加利西亚语多词表达(EMP)的翻译精度,包含加利西亚语到英语、西班牙语的翻译内容,仅含一个文件,便于快速获取和使用。 文件详解 文件名称:Conjunto de datos de traducción automática de la EMP en gallego con...
    packageimg
  • IN00618_Source_NAUSARI_SILADITYA铭文翻译数据

    2026年1月20日   

    数据集概述 本数据集为IN00618编号的NAUSARI PLATES OF YUVARAJA SRYASRAYA SILADITYA铭文的翻译文件,包含一份文档,记录该铭文的翻译内容,是研究相关历史铭文的基础资料。 文件详解 文件名称:IN00618 translation.docx 文件格式:DOCX...
    packageimg
  • Referências_Culturais_视听翻译文化参考公众接收研究数据集

    2026年1月19日   

    数据集概述 本数据集为视听翻译文化参考相关的公众接收研究数据,聚焦欧洲葡萄牙语字幕的公众接收情况,是一项接收研究的复现数据集。包含一个数据文件,可用于分析视听翻译中文化参考的公众接收特征。 文件详解 文件名称:Data.xlsx 文件格式:XLSX...
    packageimg
  • MeSDiCon_Based_西班牙语医学疾病症状候选名称词汇集_未过滤初始版

    2026年1月19日   

    数据集概述 本数据集为MeSDiCon(西班牙语医学疾病与症状名称词汇集)的未过滤初始版本,包含西班牙语临床文本中提及的疾病和症状候选名称列表。数据通过自动识别、翻译及临床语料匹配生成,每条记录关联目标术语命名空间(MeSH或OMIM)及对应标识符,提供术语在2000万份西班牙语临床笔记中的出现频率和文档频率。 文件详解...
    packageimg