找到57个数据集

格式: ZIP 标签: 文本提取

过滤结果
  • Ökosytem_Based_文档数据

    2026年2月10日 30 111 29

    数据集概述 本数据集包含一个与Ökosytem相关的文档文件,未提供具体描述信息。数据集结构简单,无目录层级,仅包含一个文档文件,文件类型为DOCX格式,未检测到命名模式或数据拆分结构。 文件详解 文件名称:Chat gpt verlauf.docx 文件格式:DOCX 字段映射介绍:未提供文件内容预览或字段信息,无法详细描述字段映射。 适用场景...
    packageimg
  • Chapter5_Based_文档数据

    2026年2月9日 30 205 103

    数据集概述 本数据集包含一份编号为Chapter 5的文档数据,无额外描述信息。数据集结构简单,仅含单个文件,未划分训练/测试集、数据/标签集或原始/处理数据集,主要用于文档内容的直接查阅或基础处理。 文件详解 文件名称:Chapter 5.docx 文件格式:DOCX 字段映射介绍:无公开预览或内容说明,文件具体内容需打开后查看 适用场景...
    packageimg
  • DBNL_Based荷兰数字化图书OCR与校正文本数据集

    2026年1月30日 30 63 47

    数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
    packageimg
  • Colección_de_datos_数据集合_文档数据

    2026年1月30日 30 176 65

    数据集概述 本数据集为单一文件的数据集合,包含一份名为UNIDAD 2 FICHAJE的文档文件,无其他子目录或文件分类,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:UNIDAD 2 FICHAJE.docx 文件格式:DOCX 字段映射介绍:未提供文件内容预览或字段信息 适用场景 文档内容分析:...
    packageimg
  • EconBiz_Based_经济学学术图表文本提取图像数据集

    2026年1月29日 30 153 49

    数据集概述 本数据集是经济学领域的学术图表文本提取语料库,包含121张学术图表,随机抽取自EconBiz的288,000篇开放获取出版物。图表类型涵盖条形图、饼图、折线图、地图、散点图等,所有图表均经过人工标注形成黄金标准,用于评估文本提取工具。 文件详解 文件名称:EconBiz.zip 文件格式:ZIP...
    packageimg
  • NCOMMS_25_07426_Based_文档数据_无时间

    2026年1月29日 30 117 42

    数据集概述 本数据集包含一个与NCOMMS-25-07426相关的Word文档,无额外描述信息。数据集结构简单,仅含单个文档文件,未检测到命名模式、训练测试/数据标签/原始处理等数据划分。 文件详解 文件名称:Word 文档.docx 文件格式:.docx 字段映射介绍:未提供文件内容预览,无法获取具体字段信息,仅可确认文件类型为Word文档。...
    packageimg
  • Okralact_Tesseract_Based_OCR引擎训练模型数据

    2026年1月22日 30 164 127

    数据集概述 本数据集为基于Okralact训练的Tesseract OCR引擎模型,包含模型文件与元数据文件,字符错误率为1.24%。数据集共2个文件,无目录层级,主要文件类型为ZIP压缩包和JSON,可用于OCR识别相关的模型部署与性能分析。 文件详解 metadata.json 文件格式:JSON...
    packageimg
  • Qué_son_las_competencias_Reseña_Based文档数据

    2026年1月15日 30 42 1

    数据集概述 本数据集围绕“¿Qué son las competencias?”(什么是能力)主题,包含一份Reseña(概述)文档,用于阐述能力的定义、内涵或相关内容。数据集结构简单,仅含单个文档文件。 文件详解 文件名称:RESEÑA.docx 文件格式:DOCX...
    packageimg
  • Noscemus_Transkribus_Based_早期现代拉丁印刷品机器可读文本数据

    2026年1月13日 30 208 89

    数据集概述 本数据集包含从Noscemus Wiki收录的作品数字副本中提取的纯文本,通过Transkribus工具转换为机器可读格式。文本通过Transkribus ID相互关联,每个数字副本的来源均有记录。转录文本由NOSCEMUS项目训练的早期现代拉丁印刷品识别模型自动生成,未经过人工编辑或校正,共包含1个文件。 文件详解...
    packageimg
  • IN01052_梵语基础哈尔西语研究项目_Kakutsthavarman资助_梵语XML数据

    2026年1月12日 30 38 19

    数据集概述 本数据集为IN01052编号的Kākutsthavarman的Halsi Grant梵语铭文的XML文件,无元数据。包含1个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试、数据/标签或原始/处理数据集。 文件详解 文件名称:IN01052.xml 文件格式:XML 字段映射介绍:文件为Kākutsthavarman的Halsi...
    packageimg
  • TEI_XML_Moravian_See_Voyages_Travel_Diaries_Text_Data

    2025年12月31日 30 210 80

    数据集概述 本数据集包含六份摩拉维亚海航行日记的TEI/XML格式文件,记录了不同年份的航行文本内容,可用于历史航行记录的文本分析与研究,支持自然语言处理相关任务。 文件详解 数据文件 文件名称:1753Text.xml、1742Text.xml、1749Text.xml、1761Text.xml、1746Text.xml、1752Text.xml...
    packageimg
  • MuffinsBonesMore_Based_多格式数据资源分析完整数据

    2025年12月23日 30 164 75

    数据集概述 该数据集包含十六个文件,主要由十五个JPG格式图片文件和一个PDF格式文档文件组成,未提供具体内容描述,文件命名无明显规律,未划分训练测试、数据标签或原始处理数据。 文件详解 图片文件(共十五个):...
    packageimg
  • KORA_SEDANA_TARKIBI_Based_文档分析基础数据

    2025年12月22日 30 169 26

    数据集概述 本数据集包含一份PDF格式的文档,文件名为Muzaffarova Nigora Safarovna.pdf,未提供具体描述信息,文件类型单一,为纯文档类数据。 文件详解 文件名称: Muzaffarova Nigora Safarovna.pdf 文件格式: PDF (.pdf) 内容说明: 未提供该PDF文件的具体字段或内容描述 适用场景...
    packageimg
  • TEMURBEKLАR_TАLIM_TАJRIBАSINI_УАХSHILАSH_Based_教育实践改进文档完整数据

    2025年12月21日 30 184 125

    数据集概述 本数据集为单一PDF文档,围绕“Temurbeklar教育经验改进”主题展开,具体内容需结合文档内容分析,目前可明确其为相关主题的文档类资源。 文件详解 文件名称: Bеkturdiеv Ауbеk Еlmurаtоviсh.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • Tolstoi_Leon_El_cupon_falso_Based_伪造票据主题文学文档完整数据

    2025年12月19日 30 148 2

    数据集概述 本数据集包含一篇PDF格式的文档,文档标题为"El cupon falso",作者为Tolstoi Leon,未提供具体内容描述。 文件详解 文件名称: El_cupon_falso-Tolstoi_Leon.pdf 文件格式: PDF (.pdf) 内容说明: 单篇文档文件,未提供具体内容字段信息。 适用场景 文学研究:...
    packageimg
  • BOBURNOMA_Based_文学环境描述完整PDF数据

    2025年12月19日 30 77 13

    数据集概述 该数据集包含一份PDF文档,主题围绕“BOBURNOMA”相关的文学环境描述,具体内容未提供详细说明,仅包含单一文件。 文件详解 文件名称: Xoliqulova Gulsanam Yorqulovna,.pdf 文件格式: PDF (.pdf) 内容说明: 文档主题为“BOBURNOMA”相关的文学环境描述,具体字段及内容未提供进一步信息...
    packageimg
  • Mahler_Ramsey_Collatz_Based_数学理论相关数据可视化完整数据集

    2025年12月19日 30 2 0

    数据集概述 本数据集包含与Mahler-Ramsey-Collatz主题相关的3个文件,主要为SVG格式图像文件和PDF格式文档文件,未提供具体内容描述,文件命名无明显规律。 文件详解 文件名称:385 PM62TM345.svg,文件格式:SVG,未提供字段或内容描述 文件名称:1110 LoH5.svg,文件格式:SVG,未提供字段或内容描述...
    packageimg
  • Vert_7_of_Muffin_s_Bones_Based_骨骼第七部分多模态数据完整数据集

    2025年12月18日 30 169 128

    数据集概述 该数据集包含八个文件,涉及Muffin骨骼第七部分(Vert 7)的相关内容,文件类型涵盖图像、三维模型、文档等,未提供详细描述信息。 文件详解 该数据集包含八个独立文件,具体说明如下: - 图像文件 (.jpg): - v7172_vert7reRedone.jpg: JPG格式图像文件 - v7172-7a.JPG: JPG格式图像文件...
    packageimg
  • 数据1942_1943年总督辖区奥尔雷乡预算数据集

    2025年12月16日 30 205 35

    数据集概述 本数据集包含1942-1943年总督辖区奥尔雷乡(Gmina Orły)的预算文件,数据来源于普热梅希尔国家档案馆的奥尔热霍夫采乡档案,是“总督辖区农村地区地方行政文件(1939-1945)——原始资料整理”项目的研究成果,为研究二战期间波兰农村地区财政状况提供历史档案支持。 文件详解 图片文件:...
    packageimg
  • 希腊教父文献集OCR标注数据集2021_2022

    2025年12月14日 30 182 53

    数据集概述 该数据集是希腊教父文献集(Patrologia Graeca)的OCR标注基准数据,包含2021-2022年期间人工标注的100张文献图像及对应PageXML文件,覆盖文本区域检测(希腊文、拉丁文列、脚注、标题)和古多调希腊文识别(行级标注)两类任务,用于OCR模型训练与验证。 文件详解 核心文件:...
    packageimg