塞尔维亚小说语料库2021年4月版

数据集概述

该数据集是2021年4月发布的塞尔维亚小说语料库(ELTeC-srp),包含90部以一级编码标注的小说文本,属于欧洲文学文本集合(ELTeC)的一部分,由COST Action项目推动构建。

文件详解

  • README.md(Markdown格式):包含语料库版本信息、发布说明、DOI引用链接及项目背景介绍,帮助用户理解数据集的来源与使用规范。
  • ELTeC-srp-0.9.0.zip(压缩包格式):包含90部一级编码的塞尔维亚小说文本文件。

数据来源

COST Action Distant Reading for European Literary History(CA16204)

适用场景

  • 比较文学研究:用于欧洲多语言文学文本的跨语种对比分析
  • 计算语言学研究:支持塞尔维亚语小说的文本特征提取与语言模型训练
  • 数字人文研究:辅助开展塞尔维亚文学的远距离阅读(Distant Reading)分析
  • 语料库语言学研究:为塞尔维亚语语法、词汇使用规律研究提供大规模文本数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 21.78 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。