找到43个数据集

标签: 文本结构

过滤结果
  • IN01042_Sanskrit_XML格式Ravivarman的Nilambur授权文件数据

    2026年1月12日   

    数据集概述 本数据集为IN01042编号的《Ravivarman的Nilambur授权文件》梵语文本的XML格式文件,无元数据信息。数据集仅包含1个XML文件,未进行训练/测试、数据/标签或原始/处理等划分,专注于提供该历史授权文件的数字化文本内容。 文件详解 XML数据文件 文件名称:IN01042.xml 文件格式:XML...
    packageimg
  • IN02009_Draft_Epidoc_Edition_Sivalinga铭文梵语XML数据

    2026年1月12日   

    数据集概述 本数据集为编号IN02009的Sivalinga铭文数字化文件,该铭文位于Daksinamurti神庙附近。数据以梵语XML格式存储,为未添加元数据的Epidoc标准草稿版本,计划纳入"Siddham"档案,核心记录铭文文本内容。 文件详解 文件名称:IN02009.xml 文件格式:XML...
    packageimg
  • IN01041_Sanskrit_古印度Mrgesavarman2年未注明出处诏书梵语XML数据

    2026年1月8日   

    数据集概述 本数据集包含IN01041号古印度文献,即Mrgesavarman在其统治2年发布的未注明出处诏书的梵语文本XML文件,无元数据。数据为单一文件,可用于古印度历史、梵语铭文及古代诏书制度的研究。 文件详解 文件名称:IN01041.xml 文件格式:XML...
    packageimg
  • IN01043_Based_Visnuvarman第9年Mudigere特许状梵语XML文本数据

    2026年1月8日   

    数据集概述 本数据集为IN01043号文献,即Visnuvarman第9年颁发的Mudigere特许状的梵语文本XML文件。数据不含元数据,仅包含一份核心XML文件,是研究古代梵语铭文、历史特许状文本的数字化资源。 文件详解 文件名称:IN01043.xml 文件格式:XML...
    packageimg
  • Multi_CAST_Source_Sanzhi_Dargwa多语言语音标注文本数据_2311版本

    2026年1月6日   

    数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,包含Sanzhi Dargwa语言的标注语音文本数据,版本为2311。数据集由班贝格大学发布,是多语言语音语言学研究的结构化资源,仅包含一个压缩文件。 文件详解 文件名称:Multi-CAST/mcsanzhi-v2311.zip 文件格式:ZIP...
    packageimg
  • IN02041_Based_Siddham档案待收录Harigaon铭文梵语XML数据_Draft

    2026年1月6日   

    数据集概述 本数据集为IN02041号Harigaon铭文(Amsuvarma时期)的梵语XML文件,是Epidoc格式的草稿版本,计划纳入"Siddham"档案。数据核心为铭文的梵语文本内容,不含元数据,仅包含一个XML文件。 文件详解 文件名称:IN02041.xml 文件格式:XML...
    packageimg
  • IN01037_Source_Simhavarman的Mudigere梵语授权文书数据_无元数据版

    2026年1月6日   

    数据集概述 本数据集包含IN01037号古文献——Simhavarman的Mudigere授权文书(第5年)的梵语XML文件。文件无附加元数据,仅保留原始文书内容,是研究古代授权文书文本结构与梵语书写特征的基础资料,总计包含1个文件。 文件详解 文件名称:IN01037.xml 文件格式:XML...
    packageimg
  • Textual_Communities_API_乔叟坎特伯雷故事集巴斯妇人开场白正则化注释数据2020

    2026年1月2日   

    数据集概述 本数据集是乔叟《坎特伯雷故事集》中《巴斯妇人开场白》的正则化注释材料,由Peter Robinson完成正则化处理,2020年6月27日通过Textual Communities API生成。数据集包含一份XML格式文件,为文学研究提供结构化的文本注释参考。 文件详解 文件名称:WBP-app.xml 文件格式:XML...
    packageimg
  • IN02059_Source_Siddham档案Adisvara_Sivalinga铭文梵语XML草稿数据

    2025年12月31日   

    数据集概述 本数据集包含IN02059 Adisvara Sivalinga铭文的梵语XML文件,为Epidoc格式的草稿版本,将纳入“Siddham”档案。数据无元数据,仅包含1个XML文件,用于铭文文本的数字化存储与后续档案整合。 文件详解 文件名称:IN02059.xml 文件格式:XML...
    packageimg
  • IN01003_Sanskrit_Based_Kesaribeda_Arthapati捐赠梵语文献XML数据

    2025年12月29日   

    数据集概述 本数据集为IN01003编号对应的Kesaribeda地区Arthapati捐赠相关的梵语文献,以XML格式存储,未包含元数据。数据集仅含一个文件,无目录层级划分,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:IN01003.xml 文件格式:XML 字段映射介绍:包含Kesaribeda Donation of...
    packageimg
  • 塔吉克期刊专栏中信息类体裁的特征

    2025年12月24日   

    数据集概述 本数据集含一篇PDF文档,聚焦塔吉克期刊专栏中的信息类体裁特征,围绕该主题展开分析与论述,为研究塔吉克语期刊信息类文本风格、结构及体裁特点提供资料。 文件详解 数据集包含一个文档文件,具体如下: - 文件名称: Olimiyon Sabrina Shamsullo.pdf - 文件格式: PDF (.pdf) - 文件内容:...
    packageimg
  • 主题建模工具数据集

    2025年12月22日   

    数据集概述 本数据集包含主题建模工具的输出结果,涵盖标准设置数据集与Nword块数据集的分析内容,包含结果表格、频率图表及分类文档,为主题建模相关研究提供结构化与可视化的数据支持。 文件详解 文件名称: Topic Models Chart.xlsx 文件格式: XLSX 内容说明: 可能包含主题建模结果的结构化数据表格,便于统计分析与数据提取...
    packageimg
  • 萨基_敞开的窗户_文本衔接与连贯的认知加工研究

    2025年12月22日   

    数据集概述 本数据集围绕萨基(H.H.芒罗)短篇小说《敞开的窗户》展开,聚焦文本内部衔接与连贯的认知加工机制研究,提供相关学术研究文档支持。 文件详解 文件名称:Saidova Mukhayyo Umedilloevna.pdf 文件格式:PDF(.pdf)...
    packageimg
  • 欧_亨利短篇小说连贯与衔接功能的认知视角研究

    2025年12月6日   

    数据集概述 本数据集聚焦于从认知视角分析欧·亨利短篇小说的连贯与衔接功能,核心内容为一份研究性文档,为文学文本分析与认知语言学交叉研究提供参考资料。 文件详解 文件名称: Rakhmatova Mekhriniso Musinovna.pdf 文件格式: PDF 文件内容:...
    packageimg
  • 哥廷根印度语言电子文本注册库ARTHA数据集

    2025年12月14日   

    数据集概述 本数据集是哥廷根印度语言电子文本注册库(GRETIL)的一部分,聚焦于印度语言电子文本资源,包含一个HTML格式的文本文件,为研究印度语言文本提供基础数据支持。 文件详解 文件名称: kautil_u.htm 文件格式: HTML (.htm) 内容说明:...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日   

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • 现代科学中公共关系文本类型_信息载体及体裁系统数据集

    2025年12月13日   

    数据集概述 本数据集聚焦现代科学视角下的公共关系(PR)文本,分析其现有类型划分、差异及格式变化趋势,为理解PR文本的结构与发展提供学术参考。 文件详解 文件名称: Аминова Азиза Хамзаевна.pdf 文件格式: PDF 内容说明:...
    packageimg
  • AL_MUFASSAL_的结构_形态学与句法问题的覆盖范围

    2025年12月9日   

    数据集概述 本数据集包含一篇关于《AL-MUFASSAL》文本结构的研究文档,核心内容围绕其对形态学和句法问题的覆盖范围展开,为理解该文本的语言学特征提供资料支持。 文件详解 文件名称: Zukhra Erimmatova.pdf 文件格式: PDF(.pdf) 文件内容: 该文档为研究《AL-...
    packageimg
  • 展览引言面板文本研究数据集2022

    2025年12月9日   

    数据集概述 本数据集包含两个展览引言面板的完整文本,用于支持“博物馆展览中的文本处理”相关研究。数据来源于2022年查理大学哲学系信息研究与图书馆学研究所的学士学位论文,后续成为专业论文《展览引言面板:文本定量分析与观众感知》的基础。 文件详解 文件名称: vyzkumne-texty.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • 开罗城市发展官方公报文献数据库1828_1914

    2025年12月8日   

    数据集概述 该数据集是埃及政府官方公报《al-Waqāʾiʿ al-Miṣriyyah》中1828至1914年开罗城市发展相关精选文章的首个版本,包含阿拉伯语和奥斯曼土耳其语文章,均为符合TEI标准的XML标记文件。 文件详解 文件名称: Project-Cairo-Urban-...
    packageimg