找到204个数据集

标签: 多语言处理

过滤结果
  • UNGA_Speeches_联合国大会1993_2023年会议演讲数据

    2026年1月26日   

    数据集概述 本数据集收录了1993-2023年联合国大会会议的演讲内容,源自联合国数字图书馆。数据包含演讲者姓名、代表的组织/国家、演讲者头衔、演讲日期及演讲文本等信息,共31个JSON文件,无目录层级结构。 文件详解 数据文件 文件名称:以年份命名(如2022.json、2012.json等) 文件格式:JSON...
    packageimg
  • Wikidata_Dump_Multilang_professions

    2026年1月26日   

    数据集概述 本数据集是通过wdumps工具生成的Wikidata多语言职业数据RDF转储,包含4个文件,总三元组数量为38,实体数和陈述数均为0。数据用于提供Wikidata中职业相关的多语言信息,支持数据共享和研究使用。 文件详解 info.json 文件格式:JSON...
    packageimg
  • ECQuAD_GoBots_Based_巴西电商问答阅读理解开发数据集

    2026年1月26日   

    数据集概述 本数据集是针对巴西电商平台的阅读理解问答数据集(ECQuAD),由众包工作者基于商品描述标注问题,遵循SQuAD-v2格式,包含可回答与不可回答问题。数据集为开发版本,供公开使用,由GoBots提供,仅含一个文件。 文件详解 文件名称:ecquad_dev_v2.json 文件格式:JSON...
    packageimg
  • TiLt_HS_Based_立陶宛高中多学科选择题测试数据_2024

    2026年1月26日   

    数据集概述 本数据集为TiLt-HS(立陶宛高中测试),包含立陶宛高中多学科选择题测试数据,用于评估学生知识水平。数据采集于2024年8月,涵盖微观经济学、宏观经济学、财务与簿记三个学术主题,共142个测试问题,可作为多语言模型训练子集使用。 文件详解 文件名称:high_school_economics_lt.json 文件格式:JSON...
    packageimg
  • ELMTEX_Based_临床报告结构化信息抽取大语言模型微调数据集

    2026年1月23日   

    数据集概述 本数据集为ELMTEX项目相关论文配套数据,用于大语言模型在结构化临床信息抽取任务中的微调。包含英文和德文两种语言的训练与测试文件,总计四个JSON格式文件,无目录层级结构,文件类型统一为JSON格式。 文件详解 英文训练文件 文件名称:train_en.json 文件格式:JSON 字段映射介绍:用于大语言模型微调的英文临床报告训练数据...
    packageimg
  • Wikidata_Dump_businessmen_人物数据_导出数据

    2026年1月22日   

    数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF导出数据,聚焦于商人(businessmen)实体,包含英文和韩文两种语言版本。数据总计包含4个文件,涵盖实体、语句和三元组信息,可用于研究商人相关的结构化知识。 文件详解 文件名称:info.json 文件格式:JSON...
    packageimg
  • CLDF_Dataset_Based_Joo音义偏向研究数据集_2020

    2026年1月22日   

    数据集概述 本数据集是基于Joo 2020年发表的《Phonosemantic Biases》研究的CLDF格式数据集,来源于莱比锡-雅加达66种语言词表中的音义偏向分析,包含一个压缩文件,为语言类型学领域的音义关系研究提供结构化数据支持。 文件详解 压缩文件 文件名称:lexibank/joophonosemantic-v1.2.zip...
    packageimg
  • BLOQUES_Source_日语母语者西班牙语学习博客语料库_v1_0

    2026年1月21日   

    数据集概述 本数据集为BLOQUES日语母语者西班牙语学习博客语料库,包含2669条博客URL,对应41位日语母语西班牙语学习者在Blogger和WordPress平台发布的46个博客内容,可用于研究日语母语者西班牙语学习的语言特征与学习行为。 文件详解 文件名称:bloques-v1.0.zip 文件格式:ZIP...
    packageimg
  • EPO_Based_欧洲专利局上诉委员会裁决多语言标题关键词数据_开源版

    2026年1月21日   

    数据集概述 本数据集包含欧洲专利局(EPO)上诉委员会裁决的标题与关键词,提取自EPO 2025年3月发布的批量数据。共收录4989条记录,覆盖1979年前及之后的D、G、J、T、W类裁决,提供英、法、德三种语言版本,支持开源免费访问,可用于专利法律与技术裁决的文本分析。 文件详解...
    packageimg
  • Lee_Hasegawa_Based_Ainu语言时空演化CLDF数据集

    2026年1月21日   

    数据集概述 本数据集是基于Lee和Hasegawa 2013年发表的《Ainu Language in Space and Time》研究生成的CLDF格式数据集,包含与阿伊努语言时空演化相关的语言数据,以压缩文件形式存储,是研究阿伊努语言演化的结构化参考资料。 文件详解 文件名称:lexibank/leeainu-v1.2.zip 文件格式:ZIP...
    packageimg
  • TeleSUR_Based_2023_2024新闻文章来源与推文分析数据

    2026年1月21日   

    数据集概述 本数据集包含2023年1月至2024年12月期间TeleSUR西班牙语和英语网站的新闻文章存档,由民主安全联盟于2025年1月通过公开WordPress端点抓取。涵盖西班牙语文章14,758篇、英语文章6,722篇,提取了每篇文章的来源、作者及嵌入推文信息,用于分析TeleSUR的外部影响因素。 文件详解...
    packageimg
  • Giravolt_Project_古罗马玻璃香水瓶多语言描述与三维模型数据

    2026年1月21日   

    数据集概述 本数据集包含古罗马2世纪圆柱形玻璃香水瓶(FLASCÓ DE VIDRE)的多语言描述与数字化文件,由Giravolt项目创建。文物特征为直颈、钟形无唇边口沿,用于盛放药膏或香水,主体有两个面,尺寸11.2×2.7×2.5厘米。数据集含6个文件,支持文物数字化研究与展示。 文件详解 三维模型文件...
    packageimg
  • Spanish_Workers_Statute_Based_双语问答数据集

    2026年1月21日   

    数据集概述 本数据集为西班牙语劳动法关键文件的双语问答数据集,包含150个问题及其对应答案,答案形式为西班牙《工人法规》130个部分中的条款编号及相关摘录。数据集支持信息检索与问答任务,共包含3个文件。 文件详解 Extracted Terminology of Spanish Worker Statute.txt 文件格式:TXT...
    packageimg
  • Decesare_Based_堕胎立场实验研究_GPT模型生成预设分句数据

    2026年1月21日   

    数据集概述 本数据集为论文“Pro-life, neutral or pro-choice? An experimental study on informative presupposition clefts generated by GPT-3.5 and GPT-4o in Italian, French and...
    packageimg
  • Thucydides_Persian_修昔底德著作波斯语译本关键术语对应数据

    2026年1月20日   

    数据集概述 本数据集系统整理了修昔底德《伯罗奔尼撒战争史》波斯语译本中“Barbarians”“Persians”“Medes”三类关键术语的对应翻译。通过提取希腊原文术语(如βάρβαρος、Μῆδος等),匹配穆罕默德·哈桑·洛特菲译本中的波斯语表达,包含原文出处、波斯语译文及英文回译等信息,共9个结构化文件,支持古典文献翻译研究与术语对比分析。...
    packageimg
  • Outcome_Analysis_Based_后交叉韧带损伤治疗预后分析数据

    2026年1月20日   

    数据集概述 本数据集围绕后交叉韧带(PCL)损伤的治疗预后展开,涵盖损伤背景、治疗方法及预后评估工具等内容,包含知情同意书、研究流程设计、SPIRIT清单及两种膝关节评分量表文件,为PCL损伤治疗效果分析提供结构化资料。 文件详解 文件名称:Informed Consent(English and Marathi).docx 文件格式:DOCX...
    packageimg
  • POWERPOLY_Based_WebAssembly辅助多语言程序分析数据

    2026年1月20日   

    数据集概述 本数据集围绕POWERPOLY项目展开,聚焦WebAssembly辅助的多语言程序分析主题,包含1个压缩文件,无分层目录结构,未划分训练/测试、数据/标签或原始/处理数据,可用于多语言程序分析相关研究。 文件详解 文件名称:PowerPoly.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

    2026年1月20日   

    数据集概述 本数据集为CONTRAST-IT多语言语料库的意大利语部分,包含2011-2012年从意大利三家电子日报(repubblica.it、lastampa.it、corriere.it)采集的531篇真实新闻文章,总计约三十万字,覆盖政治、体育、科技等多个主题,用于多语言对比语言学研究。 文件详解 意大利语新闻文章文件...
    packageimg
  • Wikidata_dump_business_kr_业务实体_RDF数据转储

    2026年1月20日   

    数据集概述 本数据集是Wikidata的RDF格式数据转储,通过wdumps工具生成,聚焦kr语言相关的业务实体数据。包含4个文件,涉及实体、语句、三元组等统计信息及配置文件,为知识图谱研究提供结构化数据支持。 文件详解 配置与元数据文件 文件名称:info.json 文件格式:JSON...
    packageimg
  • IB_Model_Fase_1_伊比利亚美洲体育与可持续发展技术数据表2024

    2026年1月19日   

    数据集概述 本数据集包含伊比利亚美洲体育与可持续发展技术数据表第一阶段的原始版本,发布于2024年4月14日。内容涵盖项目报告及智利、哥斯达黎加、厄瓜多尔三国的技术数据,通过Zenodo平台提供,以压缩文件形式呈现,用于支撑体育与可持续发展相关的统计分析。 文件详解 文件名称:IB_Model_Fase_1_Fichas_Técnicas.zip...
    packageimg