基于大语言模型重写故事的葡萄牙语叙事性别偏见研究数据集

本数据集为葡萄牙语文学作品语料库，用于研究大语言模型生成叙事中的性别偏见。语料库含五百九十二部作品，经筛选后得两万八千三百一十七个句子、七十七万四千五百一十六个词，作品覆盖不同历史时期与文学风格，每部最多取一百句以平衡分布。

metadata.csv：CSV格式，含语料库元数据，字段包括cid（作品ID）、title（标题）、author（作者）、genre（体裁）、year（年份）、source（来源）
raw_texts.zip：ZIP格式压缩包，可能包含原始葡萄牙语文学作品文本
processed.zip：ZIP格式压缩包，可能包含经处理的葡萄牙语文学作品文本

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	52.81 MiB
最后更新	2025年12月10日
创建于	2025年12月10日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。