数据集概述
本数据集为ELTeC(欧洲文学文本集)项目下的匈牙利小说语料库2021年4月版本,包含100部编码为1级和2级的小说,总计2个文件,无目录层级结构。数据由欧洲文学历史远程阅读COST行动项目产出,支持欧洲文学的数字化研究。
文件详解
- README.md
- 文件格式:MD
- 字段映射介绍:包含语料库项目背景、发布说明、维护机构等信息,以及DOI引用标识(10.5281/zenodo.4271637)
- ELTeC-hun-2.0.0.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含100部匈牙利小说的编码文本,按1级和2级标准编码
数据来源
Centre for Digital Humanities at the Eötvös University of Sciences(ELTE.DH)
适用场景
- 欧洲文学数字化研究:分析匈牙利小说的文本特征、风格演变及文学历史脉络
- 计算语言学研究:基于编码文本开展句法分析、语义挖掘等自然语言处理任务
- 文学语料库构建参考:为多语言文学语料库的编码标准和结构设计提供实例
- 学术引用与文献支撑:作为欧洲文学远程阅读研究的基础数据资源,支持相关论文发表与项目研究