找到158个数据集

标签: 西班牙语

过滤结果
  • 加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

    2026年1月31日 30 93 22

    数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
    packageimg
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 207 195

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • iCOn_MICs_COST_漫画与教育调查数据2024

    2026年1月30日 30 145 130

    数据集概述 本数据集是COST项目iCOn-MICs第5工作组“漫画与教育”研究的组成部分,聚焦葡萄牙语和西班牙语语境下的漫画教育研究概况。数据集通过标准化调查形式,系统收集相关研究数据,为教育领域漫画应用研究提供结构化参考资料,仅包含一个文件。 文件详解 文件名称:ICon MICs WG5 Encuesta Cómic y Educación...
    packageimg
  • SPICE_Based_艺术与情感多语言用户反馈实验数据集

    2026年1月29日 30 140 86

    数据集概述 本数据集是欧盟SPICE项目下收集的艺术与情感研究数据,包含芬兰语、英语、西班牙语、希伯来语、意大利语5种语言的用户反馈,涉及12件来自都灵GAM博物馆的艺术品。数据记录了用户个人信息及对每件艺术品的5个开放式问题回答,用于训练和测试情感检测模型,共7个文件。 文件详解 多语言用户反馈文件...
    packageimg
  • Bejay_多语言翻译_水主题Tsombiach编织图案数据

    2026年1月29日 0 72 25

    数据集概述 本数据集包含Bejay创作的以水为主题的Tsombiach编织图案的多语言翻译数据,涉及西班牙语、Kämentza语和英语三种语言。数据集以单一Excel文件形式呈现,无其他目录结构或文件类型,主要用于记录不同语言对编织图案的翻译内容。 文件详解 文件名称:Bejay:Agua:Water-pictograms-...
    packageimg
  • AmadissigloXX_Based_现代骑士文学重写数据库

    2026年1月29日 30 27 14

    数据集概述 本数据集包含AmadissigloXX项目框架下的现代骑士文学重写作品信息,由Elisabetta Sarmati主持。数据提供西班牙作家Emilia Pardo Bazán于1898年创作的《El Santo Grial》相关资源,包含元数据和完整数据库两个文件,支持文学研究与数字化分析。 文件详解 4931.json 文件格式:JSON...
    packageimg
  • CONTRAST_IT_Based_西班牙语报纸文章语料库数据

    2026年1月28日 0 76 73

    数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
    packageimg
  • corpus_西班牙语国际媒体疫情期间阅读与教育影响新闻分析数据

    2026年1月28日 30 126 37

    数据集概述 本数据集包含117篇西班牙语国际媒体和通讯社的新闻报道,构成了分析疫情期间阅读与教育影响的研究语料库。数据集为单一文档文件,未进行训练测试或原始处理数据的拆分,可用于相关主题的文本内容分析。 文件详解 文件名称:corpusnoticias.docx 文件格式:DOCX...
    packageimg
  • Chestionar_Spaniola_西班牙语欧洲现状调查数据

    2026年1月28日 30 12 2

    数据集概述 本数据集包含一份关于西班牙语在欧洲现状的调查文档,涉及西班牙语的动态发展、回归现象、双语现象及近期 demolingvistice(可能指语言解构或相关语言学)方面的内容。数据集仅包含一个文件,无其他目录或文件结构。 文件详解 文件名称:Cuestionario_rumano.docx 文件格式:DOCX...
    packageimg
  • BioEsCorpus_西班牙语临床报告生物医学实体关系注释语料库

    2026年1月27日 30 67 14

    数据集概述 本数据集包含对西班牙临床案例语料库(SPACCC)中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系,最终识别出324个实体(涉及10类实体)和170条关系(涉及5类关系),为生物医学文本处理研究提供结构化标注资源。 文件详解 brat_annotations目录...
    packageimg
  • CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据

    2026年1月27日 30 17 4

    数据集概述 本数据集为西班牙循证医学临床试验语料库(CT-EBM-SP),包含一千二百篇西班牙语临床试验相关文本(共二十九万二千一百七十三个词元),涵盖五百篇期刊摘要及七百篇临床试验公告,标注有解剖学、药理化学物质等四类医学实体,适用于医学自然语言处理研究。 文件详解 文件名称:CT-EBM-SP.zip 文件格式:ZIP...
    packageimg
  • Phenopackets_Based_多语言基因医学案例集_自动更新版

    2026年1月26日 30 41 0

    数据集概述 本数据集包含基于Phenopackets生成的多语言基因医学案例集,支持捷克语、中文、荷兰语、英语、德语、意大利语、日语、西班牙语和土耳其语共9种语言,用于LLM研究,会随Phenopacket Store更新自动同步最新HPO翻译和案例数据。 文件详解 压缩文件(ZIP)...
    packageimg
  • JALCOS_CELEN_Based日语学习者西班牙语写作语料库_2023版

    2026年1月20日 30 73 48

    数据集概述 本数据集为日语学习者西班牙语语料库(JALCOS)1.2版,包含222名日语母语大学生(英语为第二语言、西班牙语为第三语言)2004年撰写的222篇西班牙语作文(约8.7万字)。作文基于7个主题(含议论文、记叙文),每条数据附作者背景、写作条件等元数据,遵循国际学习者语料库标准构建,用于西班牙语二语习得研究。 文件详解...
    packageimg
  • La_Pola_Siero_Based_西班牙地图第5问口语语料文档数据

    2026年1月22日 30 206 113

    数据集概述 本数据集包含与“西班牙地图:第5问”相关的西班牙语口语语料文档,语料来源为La Pola Siero地区的口语内容,仅包含一个文档文件,无目录结构或数据划分,主要用于西班牙语口语语料相关的研究与分析。 文件详解 文件名称:Mapa de España.Pregunta5.docx 文件格式:DOCX...
    packageimg
  • PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1

    2026年1月22日 30 175 71

    数据集概述 本数据集为西班牙临床病例语料库(SPACCC)的句子分割标注第一版,由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件,无目录层级,无训练/测试、数据/标签等分割,可用于西班牙语临床文本的句子分割任务研究与模型训练。 文件详解 文件名称:SPACCC_SPLIT.zip 文件格式:ZIP...
    packageimg
  • Panorama_DOAJ_Based_拉丁美洲开放获取期刊全景分析数据

    2026年1月22日 30 157 125

    数据集概述 本数据集是关于拉丁美洲开放获取期刊全景的详细分析,包含三个主要工作表。分别从学术文献信息、西班牙语版本适配内容、DOAJ索引期刊定量分析三个维度,呈现该地区开放获取期刊的分布、特征及相关学术研究成果,为开放获取出版研究提供综合参考。 文件详解 文件名称:Dados - Acesso Aberto e América Latina...
    packageimg
  • Sarcasm_Spanish_Based视频对齐西班牙语讽刺标注数据集

    2026年1月21日 30 197 150

    数据集概述 本数据集为西班牙语视频对齐讽刺数据集,基于现有西班牙语讽刺标注数据集优化,将文本按时间顺序排列并与视频对齐,用#标注场景变化。包含视频文件名、每个话语的毫秒级起止位置,文本为手工转录,不含字幕。数据仅用于学术研究,不包含视频文件。 文件详解 文件名称:sarcasmo.xlsx 文件格式:XLSX...
    packageimg
  • FalleDesinfo_ES_Based_西班牙语名人死亡真假新闻数据集

    2026年1月21日 30 40 19

    数据集概述 本数据集包含三十三条西班牙语名人死亡相关新闻,分为三类:十一篇2024年6月18日传播的诺姆·乔姆斯基假死误信新闻、十一篇同日辟谣的真实新闻、十一篇2018年3月14日史蒂芬·霍金逝世的真实新闻。每条新闻含类型、唯一标识、发布日期、标题、摘要及正文,用于虚假新闻分类研究。 文件详解 文件名称:FalleDesinfo_ES.xlsx...
    packageimg
  • La_Pola_Siero_Based_阿斯图里亚斯地图第五问口语语料数据

    2026年1月21日 30 163 23

    数据集概述 本数据集为关于阿斯图里亚斯地图第五问的口语语料数据,来自La Pola Siero地区的口语语料库。数据集包含1个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集,主要文件类型为DOCX格式。 文件详解 文件名称:Mapa de Asturias.Pregunta5.docx 文件格式:DOCX...
    packageimg
  • Giravolt_Project_古罗马玻璃香水瓶多语言描述与三维模型数据

    2026年1月21日 30 158 27

    数据集概述 本数据集包含古罗马2世纪圆柱形玻璃香水瓶(FLASCÓ DE VIDRE)的多语言描述与数字化文件,由Giravolt项目创建。文物特征为直颈、钟形无唇边口沿,用于盛放药膏或香水,主体有两个面,尺寸11.2×2.7×2.5厘米。数据集含6个文件,支持文物数字化研究与展示。 文件详解 三维模型文件...
    packageimg