找到11个数据集

分类: 公开数据 标签: UTF8编码

过滤结果
  • Astronomia_nova_Kepler著作预处理文本机器学习数据集

    2026年1月21日 30 116 55

    数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
    packageimg
  • Hindawi_Based_19_20世纪阿拉伯文学计量风格测试语料库_数据集

    2026年1月20日 30 191 15

    数据集概述 本数据集包含19世纪至20世纪初的三类阿拉伯文学文本语料库,用于计量风格测试。涵盖Jurji Zaydan的22部编年历史小说、8位作者的65部作品、28位作者的300部作品。文本经标准化处理,适配R stylo工具,原始来源为Hindawi平台,压缩包内为UTF8编码的清洁文本文件。 文件详解 主文件...
    packageimg
  • RIMES_Based_ICDAR_2011法语手写识别竞赛行片段数据集_2024公开版

    2026年1月13日 30 183 86

    数据集概述 本数据集为2011年ICDAR法语手写识别竞赛第二任务的行片段数据,是RIMES数据库的子集。包含12111行手写文本图像及12107条转录文本,覆盖超87k个单词实例,按标准划分训练、验证和测试集,用于支持手写文本识别研究。 文件详解 文件名称:RIMES-2011-Lines.zip 文件格式:ZIP(压缩包)...
    packageimg
  • CodiEsp_Based_eHealth_CLEF2020西班牙临床案例ICD10编码预测银标准数据

    2026年1月3日 30 76 68

    数据集概述 本数据集为eHealth CLEF2020任务1参与者提交的西班牙临床案例ICD10(CIE10)编码预测结果银标准,包含各子任务下不同团队的预测数据,采用UTF-8编码的纯文本文件存储,按子任务和团队分类组织,是西班牙临床文本编码任务的参考数据集。 文件详解 文件名称:silver-standard.zip 文件格式:ZIP...
    packageimg
  • 希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集

    2025年12月18日 30 5 3

    数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
    packageimg
  • PAN18跨域作者身份识别数据集

    2025年12月22日 30 132 0

    数据集概述 该数据集提供跨域作者身份识别问题的语料库,覆盖英语、法语、意大利语、波兰语、西班牙语5种语言,包含已知候选作者同人小说与未知同人小说,通过JSON文件标注问题信息、真实作者及集合信息。 文件详解 文件名称: pan18-cross-domain-authorship-attribution-dataset.zip 文件格式: ZIP压缩包...
    packageimg
  • 智利副部长数据集1990_2022

    2025年12月20日 30 24 19

    数据集概述 该数据集包含1990年至2022年期间智利副部长的相关数据,以UTF-8编码的CSV格式存储,数据来源于官方档案、国家图书馆及新闻档案等渠道,为研究智利行政体系中副部长群体提供基础数据支持。 文件详解 该数据集包含一个压缩文件,具体说明如下: - 文件名称: bgonzalezbustamante/chilean-...
    packageimg
  • 多语言临床病例报告摘要数据集2025

    2025年12月13日 30 58 45

    数据集概述 该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用,包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对,分黄金标准训练集、大规模训练集和测试集,支持多语言临床文本自动摘要研究。 文件详解 该数据集包含12个ZIP格式压缩文件,按语言和用途分类如下: - 黄金标准训练集(各语言592对全文与摘要): -...
    packageimg
  • PAN19跨领域作者分析数据集2019

    2025年12月11日 30 100 22

    数据集概述 该数据集为PAN19评测任务的训练数据,聚焦跨领域作者归属问题,核心场景为粉丝小说(Fanfiction)的跨 fandom 作者识别。数据集包含已知作者的多 fandom 粉丝小说样本与未知作者的目标 fandom 样本,支持开放集归属任务(真实作者可能不在候选列表中)。 文件详解 数据集为单个压缩包文件,具体说明如下: - 文件名称:...
    packageimg
  • 日本全国町丁目别植被覆盖度数据集2020

    2025年12月10日 30 95 28

    数据集概述 本数据集提供日本全国町丁目尺度的植被覆盖度数据,基于Sentinel-2卫星影像与Google Earth Engine生成,经东京9区航空数据校正验证。包含2020年植被覆盖度指标(FRAC_VEG),边界数据采用平成27年国势调查数据,以CC BY 4.0协议开放。 文件详解 文件名称: 2020_v1.0.1.zip 文件格式:...
    packageimg
  • 大数据分析驱动的制造企业优化数据集

    2025年12月5日 30 1 0

    数据集概述 该数据集包含一项调查结果,旨在识别大数据分析对制造企业转型的影响。数据涵盖一百五十四名制造企业员工的参与记录,其中一百三十三名完成了所有问题。数据集提供原始德语版本和翻译后的英语版本,编码格式为UTF8,支持多语言分析需求。 文件详解 说明文档:...
    packageimg