ELTeC_德国小说语料库_2021年4月发布版

数据集概述

本数据集为欧洲文学文本集(ELTeC)的德国小说语料库2021年4月发布版,包含100部按1级编码的小说,共3个文件,无目录结构。数据支持欧洲文学的远程阅读研究,涵盖小说元数据与编码文本,可用于文学特征分析与比较研究。

文件详解

  • 文件名称:README.md
  • 文件格式:MD
  • 字段映射介绍:包含数据集DOI标识、ELTeC项目背景说明、版本信息(v1.0.0,2021年4月)及ELTeC发布通用信息链接
  • 文件名称:metadata.csv
  • 文件格式:CSV
  • 字段映射介绍:包含id、author-name(作者名)、book-title(书名)、subgenre(子类型)、year(年份)、year-cat(年份分类)、canon-cat(经典分类)、gender-cat(性别分类)、length(长度)、length-cat(长度分类)、counter、Author-birth(作者出生年份)、Author-death(作者逝世年份)、GND等字段
  • 文件名称:ELTeC-deu-1.0.0.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包,包含100部按1级编码的德国小说文本文件

数据来源

COST Action Distant Reading for European Literary History(CA16204)

适用场景

  • 欧洲文学远程阅读研究:支持通过大规模语料分析德国小说的文学特征与历史演变
  • 文学元数据分析:利用metadata.csv中的作者、年份、类型等字段,研究德国小说的作者背景、出版趋势与类型分布
  • 文学编码文本应用:基于编码小说文本开展文本挖掘、主题建模等计算文学研究
  • 跨语言文学比较:作为ELTeC多语言语料库的一部分,支持德国小说与其他欧洲语言小说的比较分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 54.51 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。