葡萄牙语文本中的性别偏见数据集

数据集概述

该数据集包含用于研究葡萄牙语文本中性别偏见的相关数据,包括精选的葡萄牙语文学语料库、构建句子模板的词表以及已生成的句子模板文件,为基于掩码语言模型的性别偏见分析提供支持。

文件详解

  • 语料库文件:
  • corpus.zip:压缩文件,包含1804-1998年巴西和欧洲葡萄牙语的592部散文作品,共120万句、1760万词的精选文学语料库
  • 词表文件:
  • word_lists.zip:压缩文件,包含构建句子模板所需的形容词、动词和名词短语列表
  • 句子模板文件:
  • constructed_templates.txt:文本文件,包含葡萄牙语句子模板示例(如"ele é vivo"等)
  • constructed_templates.tsv:表格文件,包含sent(原句)、sent_tm(模板句)、sent_am(属性掩码句)、sent_tam(模板+属性掩码句)等字段的结构化模板数据

适用场景

  • 自然语言处理研究:用于训练和测试掩码语言模型在葡萄牙语文本性别偏见检测中的应用
  • 计算语言学分析:分析葡萄牙语文学作品中性别相关词汇的分布规律
  • 社会语言学研究:探究不同时期葡萄牙语文本中的性别刻板印象表达
  • 人工智能伦理研究:评估语言模型在处理性别相关内容时的偏见问题
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 39.71 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。