找到983个数据集

格式: ZIP 标签: 机器翻译

过滤结果
  • 学术论文写作论证结构识别数据集

    2026年3月12日 30 176 56

    学术论文写作论证结构识别数据集_Academic_Paper_Argumentative_Structure_Identification 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 论证结构, 文本分类, 深度学习, 论文分析, 机器翻译, 数据标注 数据概述:...
    packageimg
  • 英语_马拉地语翻译数据集

    2026年3月5日 30 179 26

    英语_马拉地语翻译数据集_English_to_Marathi_Translation_Dataset 数据来源:互联网公开数据 标签:机器翻译, 语言学, 文本数据, 翻译模型, 自然语言处理, 语料库, 英语, 马拉地语 数据概述: 该数据集包含英语到马拉地语的翻译对,记录了英语句子及其对应的马拉地语翻译。主要特征如下:...
    packageimg
  • 埃及新闻文章摘要生成数据集

    2026年3月3日 30 91 72

    埃及新闻文章摘要生成数据集_Egyptian_News_Article_Summarization_Dataset 数据来源:互联网公开数据 标签:文本摘要, 新闻文章, 自然语言处理, 机器翻译, 深度学习, 文本生成, 语料库, 阿拉伯语 数据概述:...
    packageimg
  • 阿拉伯新闻文本情感分析数据集

    2026年2月22日 30 108 82

    阿拉伯新闻文本情感分析数据集_Arabic_News_Text_Sentiment_Analysis 数据来源:互联网公开数据 标签:阿拉伯语, 情感分析, 文本分类, 自然语言处理, 新闻文本, 情感极性, 机器翻译, 语料库 数据概述: 该数据集包含来自阿拉伯新闻网站的文本数据,记录了新闻文章的内容及其对应的情感极性标签。主要特征如下:...
    packageimg
  • 数据集_100个中印尼商务词汇条目

    2026年2月15日 30 159 18

    数据集概述 本数据集包含一百个汉印尼商务领域的双语词汇条目,以单一Excel文件形式呈现,未划分训练测试集、数据标签集或原始处理集,旨在为商务场景下的汉印尼词汇翻译与学习提供结构化参考。 文件详解 文件名称:100 Chinese–Indonesian Business Vocabulary Items Dataset.xlsx 文件格式:XLSX...
    packageimg
  • Tigrinya_Analogy_Test_词嵌入模型评估数据集

    2026年2月13日 30 73 46

    数据集概述 本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。 文件详解 文件名称:TigrinyaAnalogyTest.zip 文件格式:ZIP...
    packageimg
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 30 138 75

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • Amazon_MT_Based手机多语言评论数据

    2026年2月9日 30 109 97

    数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
    packageimg
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 30 189 111

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • Bejay_多语言翻译_水主题Tsombiach编织图案数据

    2026年1月29日 30 9 7

    数据集概述 本数据集包含Bejay创作的以水为主题的Tsombiach编织图案的多语言翻译数据,涉及西班牙语、Kämentza语和英语三种语言。数据集以单一Excel文件形式呈现,无其他目录结构或文件类型,主要用于记录不同语言对编织图案的翻译内容。 文件详解 文件名称:Bejay:Agua:Water-pictograms-...
    packageimg
  • WMT16_Based_Scielo生物医学翻译任务单语数据集

    2026年2月8日 30 180 109

    数据集概述 本数据集为第一届机器翻译会议(WMT'16)生物医学翻译任务提供的Scielo单语数据,包含英语、西班牙语、葡萄牙语、法语4种语言的生物医学相关文本,源自Scielo数据库,共7个XML文件,无目录层级划分。 文件详解 英文生物医学文件 文件名称:en-health.xml、en-biological.xml 文件格式:XML...
    packageimg
  • OJ_Samples_翻译结果与评估数据集

    2026年2月2日 30 169 156

    数据集概述 本数据集开源了小规模OJ样本及其翻译结果与评估结果,为相关实验提供基础数据支撑。数据集包含1个压缩文件,未划分训练测试集、数据标签集或原始处理集,具体内容可参考README.md。 文件详解 文件名称:oj_samples.zip 文件格式:ZIP...
    packageimg
  • GPT_4_Turbo_沙特法律文件翻译数据

    2026年2月1日 30 80 9

    数据集概述 本数据集包含由GPT-4 Turbo翻译的14份沙特阿拉伯法律文件,均为Excel格式。涵盖基础治理法、司法法、诉讼程序法、专利法等多个法律领域,无目录结构,文件直接存储,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称与格式:14个文件均为.xlsx格式,包括《Basic Law of...
    packageimg
  • 医疗场景机器翻译研究_荷兰华人移民健康沟通数据

    2026年2月1日 30 207 186

    数据集概述 本数据集围绕荷兰近期华人移民在医疗场景中使用机器翻译的情况展开,包含相关研究的中英文文档资料,为了解医疗沟通中机器翻译的应用实践提供参考。 文件详解 文件名称:Chinese_Migrants_in_the_Nederlands-ZH-S.docx 文件格式:DOCX...
    packageimg
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 47 37

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • S5_Data_Swahili匿名IDI转录本数据

    2026年1月31日 30 10 9

    数据集概述 本数据集为S5 Data,包含斯瓦希里语中所有IDI(个体深度访谈)转录本的匿名版本,这些转录本基于S4 Data进行分析,并选择性翻译用于结果部分的引用。数据集仅包含一个文件。 文件详解 文件名称:S5 Data. IDIs transcripts.docx 文件格式:DOCX...
    packageimg
  • 加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

    2026年1月31日 30 35 15

    数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
    packageimg
  • English_Yoruba_英语到约鲁巴语翻译数据集

    2026年1月31日 30 134 70

    数据集概述 本数据集为英语到约鲁巴语的翻译数据,适用于Android手机的短消息服务语音和文本翻译场景,包含1个文件,无目录结构,主要文件格式为.xlsx。 文件详解 文件名称:Updated Translation Datasets.xlsx 文件格式:XLSX...
    packageimg
  • ZENODO人工智能智能体机器翻译人类评价数据集2025

    2026年1月30日 30 65 61

    数据集概述 本数据集为论文《Are AI agents the new machine translation frontier?》配套的人类评估数据,聚焦AI智能体(单智能体与多智能体系统)在机器翻译领域的应用潜力,包含针对其翻译质量的人工评估结果,是研究AI智能体机器翻译性能的关键支撑数据。 文件详解 文件名称:AI agents paper -...
    packageimg
  • 南非语言嵌入评估数据集_Simlex_和_WordSim

    2026年1月30日 30 210 47

    数据集概述 本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。 文件详解 文件名称:SimLex-999-orig - Sepedi.xlsx...
    packageimg