基于大语言模型重写故事的葡萄牙语叙事性别偏见研究数据集

数据集概述

本数据集为葡萄牙语文学作品语料库,用于研究大语言模型生成叙事中的性别偏见。语料库含五百九十二部作品,经筛选后得两万八千三百一十七个句子、七十七万四千五百一十六个词,作品覆盖不同历史时期与文学风格,每部最多取一百句以平衡分布。

文件详解

  • metadata.csv:CSV格式,含语料库元数据,字段包括cid(作品ID)、title(标题)、author(作者)、genre(体裁)、year(年份)、source(来源)
  • raw_texts.zip:ZIP格式压缩包,可能包含原始葡萄牙语文学作品文本
  • processed.zip:ZIP格式压缩包,可能包含经处理的葡萄牙语文学作品文本

适用场景

  • 自然语言处理研究:分析大语言模型生成葡萄牙语叙事的性别偏见特征
  • 计算语言学分析:探究葡萄牙语文学作品的语言结构与性别相关表达模式
  • 性别研究:挖掘文学文本中隐含的性别刻板印象及叙事差异
  • 语料库语言学:构建葡萄牙语文学语料库并开展多维度统计分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 52.81 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。