CrowS-Pairs社会偏见评估挑战数据集-thedevastator
数据来源:互联网公开数据
标签:社会偏见,MLM,语言模型,机器学习,数据集,教育,研究,公平性
数据概述:
CrowS-Pairs数据集包含1,508对句子,涵盖了九种类型的社会偏见:种族/肤色、性别/性别认同、性取向、宗教、年龄、国籍、残疾、外貌和经济地位。每对句子中,第一句可以展示或违反某种刻板印象,第二句是对第一句的最小编辑,仅更改了标识群体的词语。数据集中的每个示例包括以下信息:sent_more(第一句)、sent_less(第二句)、stereo_antistereo(第一句是展示还是违反刻板印象)、bias_type(偏见类型)、annotations(众包注释者对句子对的注释)、anon_writer(匿名作者)、anon_annotators(匿名注释者)、prompt(提示)和source(来源)。
数据用途概述:
该数据集适用于衡量大规模掩码语言模型(MLMs)中的社会偏见。研究者可以通过训练模型并评估其在数据集上的表现来测量和减少模型中的社会偏见。此外,该数据集还可以用于研究社会偏见对下游任务(如阅读理解和问答)的影响,促进更加公平和包容的AI应用。
数据集文件:
crows_pairs_anonymized.csv
- sent_more:对中第一句,可以展示或违反某种刻板印象。
- sent_less:对中第二句,对第一句的最小编辑,仅更改标识群体的词语。
- stereo_antistereo:第一句是展示还是违反刻板印象。
- bias_type:句子对中表示的偏见类型。
- annotations:众包注释者对句子对的注释。
- anon_writer:匿名作者。
- anon_annotators:匿名注释者。
prompts.csv
- sent_more:对中第一句,可以展示或违反某种刻板印象。
- prompt:句子对的提示。
- source:句子对的来源。