西班牙语小说语料库2021_04

数据集概述

该数据集是2021年4月发布的西班牙语小说语料库(ELTeC-spa),包含八十三个按一级标准编码的小说。数据集由元数据文件、说明文档和压缩包组成,为欧洲文学文本研究提供结构化的西班牙语小说资源。

文件详解

  • metadata.csv(CSV格式):包含西班牙语小说的元数据信息,字段包括id(语料库编号)、author-name(作者名)、book-title(书名)、subgenre(子类型)、year(出版年份)、year-cat(年份分类)、canon-cat(经典分类)、gender-cat(性别分类)、length(文本长度)、length-cat(长度分类)、counter(计数)。
  • README.md(MD格式):提供数据集发布说明,包含DOI标识、发布版本信息(v0.9.1,2021年4月)、数据编码标准(一级编码)及联系人信息。
  • ELTeC-spa-0.9.1.zip(ZIP格式):压缩包文件,可能包含八十三个西班牙语小说的编码文本内容。

适用场景

  • 西班牙语文学研究:分析不同时期、作者、子类型的西班牙语小说特征。
  • 计算语言学研究:用于文本长度、词汇分布等量化分析。
  • 数字人文研究:支持文学经典性、性别与文学创作等主题的探索。
  • 语料库语言学教学:作为西班牙语文学语料库构建与应用的教学案例。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 16.51 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。