玩具偏见图像数据集-2023-annaariasduart
数据来源:互联网公开数据
标签:图像数据集,偏见评估,视觉上下文,机器学习,高偏见数据,教育,研究
数据概述:
本数据集包含四个使用文本到图像扩散模型生成的数据集,旨在评估通过视觉上下文中的偏见。数据集共包含四个类别:长椅、消防栓、飞机和水杯。每个类别都有特定的提示语用于生成图像,通常为“一个绿色的[物体]在前景,典型的背景”。每个类别包括150张图像,分为100张训练集、25张验证集和25张测试集。此外,还有以下变体数据集:
1. 白色背景:与Objects数据集相同类别,但背景被手动移除,替换为白色背景,每个类别包含25张测试图像。
2. 仅上下文:包括四个不同背景类别,分别是公园、天空、街道和木头,每个类别包含25张图像。
3. 跨上下文:通过将Objects数据集中的物体与Only Context数据集中的背景组合生成,每个组合包含六张图像,共有12种组合。
数据用途概述:
该数据集适用于偏见评估研究、机器学习模型训练与测试、视觉上下文分析、教育演示和高偏见数据集的研究。研究人员可以利用此数据集评估和分析视觉上下文中的偏见现象,教育工作者可以使用这些图像进行高偏见数据集的教学和展示。此外,数据集还可以用于开发和评估机器学习模型在处理高偏见数据时的性能。