-
希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集
2025年12月18日 30 156 104
数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
-
PAN18跨域作者身份识别数据集
2025年12月22日 30 157 67
数据集概述 该数据集提供跨域作者身份识别问题的语料库,覆盖英语、法语、意大利语、波兰语、西班牙语5种语言,包含已知候选作者同人小说与未知同人小说,通过JSON文件标注问题信息、真实作者及集合信息。 文件详解 文件名称: pan18-cross-domain-authorship-attribution-dataset.zip 文件格式: ZIP压缩包...
-
智利副部长数据集1990_2022
2025年12月20日 30 8 2
数据集概述 该数据集包含1990年至2022年期间智利副部长的相关数据,以UTF-8编码的CSV格式存储,数据来源于官方档案、国家图书馆及新闻档案等渠道,为研究智利行政体系中副部长群体提供基础数据支持。 文件详解 该数据集包含一个压缩文件,具体说明如下: - 文件名称: bgonzalezbustamante/chilean-...
-
多语言临床病例报告摘要数据集2025
2025年12月13日 30 40 5
数据集概述 该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用,包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对,分黄金标准训练集、大规模训练集和测试集,支持多语言临床文本自动摘要研究。 文件详解 该数据集包含12个ZIP格式压缩文件,按语言和用途分类如下: - 黄金标准训练集(各语言592对全文与摘要): -...
-
PAN19跨领域作者分析数据集2019
2025年12月11日 30 177 12
数据集概述 该数据集为PAN19评测任务的训练数据,聚焦跨领域作者归属问题,核心场景为粉丝小说(Fanfiction)的跨 fandom 作者识别。数据集包含已知作者的多 fandom 粉丝小说样本与未知作者的目标 fandom 样本,支持开放集归属任务(真实作者可能不在候选列表中)。 文件详解 数据集为单个压缩包文件,具体说明如下: - 文件名称:...
-
日本全国町丁目别植被覆盖度数据集2020
2025年12月10日 30 167 127
数据集概述 本数据集提供日本全国町丁目尺度的植被覆盖度数据,基于Sentinel-2卫星影像与Google Earth Engine生成,经东京9区航空数据校正验证。包含2020年植被覆盖度指标(FRAC_VEG),边界数据采用平成27年国势调查数据,以CC BY 4.0协议开放。 文件详解 文件名称: 2020_v1.0.1.zip 文件格式:...
-
大数据分析驱动的制造企业优化数据集
2025年12月5日 30 178 81
数据集概述 该数据集包含一项调查结果,旨在识别大数据分析对制造企业转型的影响。数据涵盖一百五十四名制造企业员工的参与记录,其中一百三十三名完成了所有问题。数据集提供原始德语版本和翻译后的英语版本,编码格式为UTF8,支持多语言分析需求。 文件详解 说明文档:...



