斯洛文尼亚小说语料库2021年4月版

数据集概述

该数据集是2021年4月发布的斯洛文尼亚小说语料库,包含一百部小说,均采用一级和二级编码。数据内容与上一版本保持一致,为欧洲文学文本相关研究提供结构化的文学文本资源。

文件详解

  • metadata.tsv:TSV格式文件,包含小说的元数据信息,核心字段包括ID、作者姓名(Name)、VIAF标识符、性别(Gender)、出生年份(Birth)、逝世年份(Death)、小说标题(Title)、副标题(Subtitle)、出版状态(Printed)、数字化状态(Digitised)、时期(Period)、篇幅(Size)、经典性(Canon)、词数(Words)、词元数(Tokens)等。
  • README.md:MD格式文件,包含语料库的发布说明、DOI引用信息及ELTeC项目背景介绍。
  • ELTeC-slv-2.0.0.zip:ZIP格式压缩包,可能包含编码后的小说文本文件。

适用场景

  • 比较文学研究:分析斯洛文尼亚小说的文学特征与欧洲其他语种小说的差异。
  • 数字人文研究:利用编码文本开展文本挖掘、主题建模等量化分析。
  • 文学社会学研究:通过元数据探究斯洛文尼亚小说作者群体的性别、年代分布特征。
  • 语料库语言学研究:基于小说文本开展词汇、句法等语言层面的统计分析。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 94.3 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。