欧洲文学文本集_法国小说语料库2021

数据集概述

本数据集是欧洲文学文本集(ELTeC)的法国小说语料库,由COST Action“欧洲文学史的远读”项目制作,版本为v1.0.1。包含法国小说文本及元数据,所有文本均属于公有领域,为文学研究提供标准化语料支持。

文件详解

该数据集包含三个文件,具体说明如下: - 文件名称: ELTeC-fra_metadata.tsv - 文件格式: TSV(制表符分隔值) - 字段示例: filename(文件名)、xmlid(XML标识)、au-name(作者名)、title(标题)、au-birth(作者出生年份)、au-death(作者逝世年份)、digitalSource(数字来源)、firsted-yr(首次出版年份)、language(语言)、numwords(字数)等 - 文件名称: README.md - 文件格式: Markdown(.md) - 内容: 语料库基本介绍、版本信息、引用建议及项目背景说明 - 文件名称: ELTeC-fra-1.0.1.zip - 文件格式: ZIP压缩包 - 内容: 可能包含语料库的完整文本文件或其他相关资源

数据来源

COST Action Distant Reading for European Literary History(CA16204)

适用场景

  • 法国文学研究: 用于分析19世纪法国小说的作者背景、出版时间及文本特征
  • 数字人文分析: 支持远读(distant reading)方法下的大规模文学文本挖掘
  • 比较文学研究: 作为欧洲文学文本集的一部分,用于跨国文学趋势对比
  • 语料库语言学研究: 基于标准化标注的文本开展语言特征统计与分析
  • 教学资源: 为文学或语言学课程提供结构化的法国小说语料
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 35.67 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。