ELTeC_Portuguese_Novel_Corpus_欧洲文学文本语料库数据2021

数据集概述

本数据集为ELTeC-por葡萄牙语小说语料库2021年4月发布版本,包含100部采用1级和2级编码的葡萄牙语小说,涉及元数据、说明文档及压缩文件三类内容,可支持欧洲文学文本的数字化分析研究。

文件详解

  • README.md
  • 文件格式:MD
  • 字段映射介绍:包含项目说明、发布版本信息(v2.0.0等)、DOI标识及COST Action项目背景等内容
  • ELTeC-por_metadata.csv
  • 文件格式:CSV
  • 字段映射介绍:包含filename(文件名)、xmlid(XML标识)、au-name(作者名)、title(标题)、au-birth(作者出生年)、au-death(作者逝世年)、au-gender(作者性别)、copytext-yr(版本年份)、firsted-yr(首版年份)、sizeCat(篇幅类别)、canonicity(经典性)、time-slot(时间槽)、numwords(词数)、language(语言)等元数据字段
  • ELTeC-por-2.0.0.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包文件,包含100部采用1级和2级编码的葡萄牙语小说文本数据

数据来源

COST Action Distant Reading for European Literary History(CA16204)

适用场景

  • 欧洲文学数字化研究:用于分析葡萄牙语小说的文本特征、作者信息及出版背景
  • 文学语料库构建:作为标准化文学文本语料库,支持多语言文学对比研究
  • 文本编码分析:研究1级和2级编码格式在文学文本数字化中的应用效果
  • 文学计量学研究:基于元数据中的词数、时间槽等字段,开展文学作品的量化分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 89.5 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。