找到576个数据集

标签: 语料库建设

过滤结果
  • 多语种越狱数据集

    2026年2月15日 30 3 1

    数据集概述 本数据集为多语种越狱数据集,包含一个Excel文件,未进行训练/测试、数据/标签、原始/处理等数据拆分,未提供自述文件或内容预览,可用于多语种文本相关的研究与分析。 文件详解 文件名称:多语种越狱数据集.xlsx 文件格式:XLSX 字段映射介绍:未提供内容预览,具体字段信息暂不明确 适用场景 多语种文本数据挖掘:...
    packageimg
  • 数据集_100个中印尼商务词汇条目

    2026年2月15日 30 144 7

    数据集概述 本数据集包含一百个汉印尼商务领域的双语词汇条目,以单一Excel文件形式呈现,未划分训练测试集、数据标签集或原始处理集,旨在为商务场景下的汉印尼词汇翻译与学习提供结构化参考。 文件详解 文件名称:100 Chinese–Indonesian Business Vocabulary Items Dataset.xlsx 文件格式:XLSX...
    packageimg
  • ACA_多语言核心论元标注数据库

    2026年2月12日 30 59 25

    数据集概述 本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。 文件详解 数据库描述文档...
    packageimg
  • 燃烧研究所2009年会议论文集_文献数据

    2026年2月9日 30 137 134

    数据集概述 本数据集来源于SciExpeM平台,对应论文《Proceedings Of The Combustion Institute》2009年第32卷229-237页的内容,包含1个XML格式文件,主要用于存储该文献的元数据信息,为燃烧科学领域的研究提供文献数据支持。 文件详解 文件名称:10.5281/zenodo.6378990.xml...
    packageimg
  • Dataset_Trust_Based_数据集数据

    2026年2月9日 30 171 29

    数据集概述 本数据集名称为Dataset Trust,包含1个文件,无描述信息,未检测到命名模式,无目录结构,无训练/测试、数据/标签、原始/处理数据的拆分,主要文件类型为.xlsx。 文件详解 文件名称:DataSet.xlsx 文件格式:XLSX 字段映射介绍:无可用README或内容预览,暂无法提供字段映射信息。 适用场景 数据管理研究:...
    packageimg
  • CuneiML_Based_楔形文字机器学习数据集

    2026年2月9日 30 66 30

    数据集概述 本数据集为楔形文字机器学习研究提供支持,包含38,947张楔形文字泥板照片的元数据、边界框信息,以及对应文本的音译和楔形文字Unicode编码。数据结构涵盖泥板正反两面的文字内容、地理来源、时间年代和文本类型等信息,适用于楔形文字的图像识别与文本分析任务。 文件详解 文件名称:CuneiMLv1.2.json 文件格式:JSON...
    packageimg
  • TEI_MCM_Based历史语料库元数据模型定制化实现数据

    2026年2月8日 30 125 57

    数据集概述 本数据集包含用于历史语料库元数据文档的TEI ODD定制化内容,通过TEI p5首部结构映射元数据模型(MCM),覆盖语料库、文档、制备三类对象,结合TEI指南子集实现标准化元数据记录,含定制化说明及配套HTML文档。 文件详解 文件名称:TEI-MCM-ODDs_S8.zip 文件格式:ZIP 字段映射介绍:压缩包内含TEI...
    packageimg
  • WMT16_Based_Scielo生物医学翻译任务单语数据集

    2026年2月8日 30 151 80

    数据集概述 本数据集为第一届机器翻译会议(WMT'16)生物医学翻译任务提供的Scielo单语数据,包含英语、西班牙语、葡萄牙语、法语4种语言的生物医学相关文本,源自Scielo数据库,共7个XML文件,无目录层级划分。 文件详解 英文生物医学文件 文件名称:en-health.xml、en-biological.xml 文件格式:XML...
    packageimg
  • FOR2828_TP2_Based_英语文学诗篇集分析结果数据

    2026年2月8日 30 166 131

    数据集概述 本数据集为FOR 2828研究单元“文本中的去神圣化与神圣化”框架下,TP2项目“英语文学中灵感、授权与神圣化的构型”对诗篇集语料库的分析结果,包含分析结果表格与说明文档,共2个文件。 文件详解 readme.txt 文件格式:TXT 字段映射介绍:说明数据集背景,包括所属研究单元、项目名称及分析内容概述。 TABLE Results P2...
    packageimg
  • CLICS_2_0_Based_坦桑尼亚语言调查数据集

    2026年1月30日 30 208 173

    数据集概述 本数据集为CLICS 2.0的一部分,来源于20世纪70年代初开展的坦桑尼亚语言调查(TLS),涵盖约100种坦桑尼亚语言的词汇统计数据,基于斯瓦希里语和英语平行列的1079个条目翻译表整理而成,支持语言关系与词汇共性研究。 文件详解 文件名称:tls.zip 文件格式:ZIP...
    packageimg
  • Lexibank_Based_嘉绒语族语言历史比较词汇数据集2023

    2026年2月6日 0 148 112

    数据集概述 本数据集是基于Lai和List 2023年《嘉绒语族语言比较》的CLDF格式词汇数据,包含嘉绒语族语言的历史比较词汇信息,由莱比锡马克斯·普朗克进化人类学研究所发布,版本为1.0,仅含一个压缩文件。 文件详解 文件名称:lexibank/lairgyalrong-v0.4.zip 文件格式:ZIP...
    packageimg
  • DSEBench_Based_数据集集合数据

    2026年2月1日 30 47 10

    数据集概述 本数据集为DSEBench相关的数据集集合,包含一个JSON格式文件,无训练/测试、数据/标签、原始/处理等数据划分,未提供自述文件或内容预览,主要用于数据集管理及相关基准测试场景。 文件详解 文件名称:datasets.json 文件格式:JSON 字段映射介绍:未提供具体字段信息,文件内容为DSEBench相关的数据集集合数据。...
    packageimg
  • SXS_BBH_双黑洞合并SpEC模拟原始数据

    2026年2月1日 30 184 46

    数据集概述 本数据集为SXS:BBH:2000双黑洞系统模拟数据,由SpEC代码演化生成,包含引力波应变数据及元数据,共36个文件,覆盖Lev1、Lev2、Lev3三个层级,用于天体物理领域双黑洞合并过程的研究。 文件详解 .h5格式文件(18个,占比50.0%)...
    packageimg
  • SLCT_Based_科学文献比较表数据集子集

    2026年2月1日 30 47 43

    数据集概述 本数据集为科学文献比较表(SLCT)数据集的子集,通过arXiv和Semantic Scholar API收集,经预处理、表格提取、引用数据获取等步骤处理而成,包含文献比较表相关数据,总计1个文件。 文件详解 文件名称:A subset of Scientific Literature Comparison Tables...
    packageimg
  • 数字化语言学词形变化标注框架研究数据_2020

    2026年2月1日 30 96 76

    数据集概述 本数据集是研究“Developing an annotation framework for word formation processes in comparative linguistics”的配套数据与代码,包含一个压缩文件,用于支持比较语言学领域词形变化过程标注框架的开发与应用,为相关语言学研究提供结构化的数据资源。 文件详解...
    packageimg
  • SXS_BBH_双黑洞合并数值模拟实验数据_v1

    2026年2月1日 30 27 19

    数据集概述 本数据集是由SpEC代码演化的双黑洞双星系统模拟数据,标识符为SXS:BBH:2497。包含36个文件,覆盖.json和.h5两种格式,主要记录双黑洞合并过程中的引力波应变、视界信息及额外波形等核心物理数据,为黑洞物理研究提供数值模拟支持。 文件详解 元数据文件(Metadata)...
    packageimg
  • 松比亚奇_西本多伊山谷卡门塔兹织工专家访谈元数据

    2026年2月1日 30 122 55

    数据集概述 本数据集包含Sibundoy Valley地区21位Kämentza织工专家的访谈元数据,记录访谈的基本信息。转录文件可根据需求提供,数据集总计包含一个文件,无目录层级划分。 文件详解 文件名称:Tsombiach-interview-metadata.xlsx 文件格式:XLSX...
    packageimg
  • DWDS_Based_德语词源词典完整词条列表数据

    2026年1月31日 30 12 1

    数据集概述 本数据集为《德语词源词典》的词条列表,收录约24500个德语词汇,包含每个词汇在数字德语词典(DWDS)中的对应文章URL。该词典由沃尔夫冈·普法伊费尔领导的团队编写,涵盖词汇的年代、起源、亲属关系及词义演变等信息,是德语词源研究的重要参考资料。 文件详解 文件名称:etymwb-headwords.json 文件格式:JSON...
    packageimg
  • UNIC_Based语料库对齐文件模板数据v1_1

    2026年1月31日 30 188 100

    数据集概述 本数据集为UNIC平台的语料库对齐文件模板,包含JSON模板和Excel模板,支持用户按模板结构化语料库对齐文件,可通过转换工具将Excel文件转为JSON压缩包上传至UNIC平台,共包含2个文件。 文件详解 UNIC_Alignment template.json 文件格式:JSON...
    packageimg