葡萄牙语作者归属分析语料库

数据集概述

该数据集是用于作者归属分析的葡萄牙语语料库,包含三位不同作者的作品,每位作者各三部,共计九部书籍文本,为研究文本特征与作者风格关联提供数据支持。

文件详解

  • 文件类型:所有文件均为TXT格式(.txt),共9个文件,占比百分之百
  • 文件示例:
  • MC_O Outro Pe da Sereia.txt
  • MC_Jesusalem.txt
  • JS_A Jangada De Pedra.txt
  • JS_Levantado do Chao.txt
  • JS_As Intermitencias da Morte.txt
  • LA_As Naus.txt
  • LA_A Ordem Natural das Coisas.txt
  • LA_Auto Dos Danados.txt
  • 文件内容:包含葡萄牙语书籍全文,文本预览显示包含章节标题、段落等结构化内容(如"Capítulo um A estrela enterrada Moçambique, Dezembro de 2002...")

适用场景

  • 计算语言学研究:用于开发和测试作者归属算法模型
  • 文体学分析:探究不同葡萄牙语作家的语言风格特征差异
  • 自然语言处理应用:支持文本分类、风格识别等任务的模型训练
  • 文学研究:辅助分析特定作家的写作习惯与文本模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.46 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。