找到4个数据集

标签: 作者名

过滤结果
  • 欧洲文学文本集_法国小说语料库2021

    2025年12月20日 30 91 10

    数据集概述 本数据集是欧洲文学文本集(ELTeC)的法国小说语料库,由COST Action“欧洲文学史的远读”项目制作,版本为v1.0.1。包含法国小说文本及元数据,所有文本均属于公有领域,为文学研究提供标准化语料支持。 文件详解 该数据集包含三个文件,具体说明如下: - 文件名称: ELTeC-fra_metadata.tsv - 文件格式:...
    packageimg
  • 数据18世纪法国小说数据集1751_1800

    2025年12月14日 30 157 115

    数据集概述 该数据集包含1751至1800年间创作或首次出版的200部18世纪法国小说的数字化文本,以TEI/XML格式存储,同时提供精简版和扩展版TSV元数据文件,为法国文学研究提供结构化的文本资源。 文件详解 核心文件: roman18-novels_and_scripts.zip:压缩文件,包含所有TEI/XML格式的小说文本及相关脚本...
    packageimg
  • 西班牙语小说语料库2021_04

    2025年12月7日 30 167 1

    数据集概述 该数据集是2021年4月发布的西班牙语小说语料库(ELTeC-spa),包含八十三个按一级标准编码的小说。数据集由元数据文件、说明文档和压缩包组成,为欧洲文学文本研究提供结构化的西班牙语小说资源。 文件详解 metadata.csv(CSV格式):包含西班牙语小说的元数据信息,字段包括id(语料库编号)、author-...
    packageimg
  • 罗马尼亚小说语料库2021年4月版

    2025年12月4日 30 168 147

    数据集概述 该数据集是2021年4月发布的罗马尼亚小说语料库(ELTeC-rom),包含95部按第一层级编码的小说,提供了小说元数据、说明文档及压缩文件包,为欧洲文学文本相关研究提供基础数据支持。 文件详解 文件名称: metadata.csv 文件格式: CSV 字段映射: 包含id(编号)、author-name(作者名)、book-...
    packageimg