Fairness_Based_合成数据生成公平性研究基准数据集

数据集概述

本数据集是用于研究合成数据生成公平性的基准数据集,包含traveltime、cardio、credit、German Credit等多个子数据集,覆盖人口普查、医疗、金融等领域,涉及工作通勤时间、心血管疾病、信贷违约等预测任务,提供结构化数据及类型描述文件,支持公平性评估研究。

文件详解

  • 数据文件(CSV格式)
  • 文件名称:traveltime.csv、bank-full.csv、cardio_train.csv、german_credit.csv、bank.csv等9个CSV文件
  • 文件格式:CSV
  • 字段映射介绍:包含各子数据集的结构化数据,如traveltime.csv含SERIALNO(序列号)、AGEP(年龄)、SEX(性别)、LABEL(通勤时间是否超20分钟)等字段;bank-full.csv含age(年龄)、job(职业)、balance(余额)、y(是否订阅产品)等字段
  • 类型描述文件(JSON格式)
  • 文件名称:cardio_dtypes.json、diabetes_dtypes.json、german_credit_dtypes.json等7个JSON文件
  • 文件格式:JSON
  • 字段映射介绍:包含'tables'、'relationships'、'METADATA_SPEC_VERSION'等键,描述对应数据集的字段类型及元数据规范
  • 属性信息与元数据文件
  • 文件名称:german_credit_attribute_info.csv、bank-metadata.txt
  • 文件格式:CSV、TXT
  • 字段映射介绍:german_credit_attribute_info.csv记录German Credit数据集属性信息;bank-metadata.txt含数据引用说明,提及Moro et al. 2011的研究

适用场景

  • 合成数据生成公平性评估:用于测试不同合成数据生成算法在人口普查、医疗、金融等场景下的公平性表现
  • 公平性算法研究:支持开发和验证针对性别、年龄等敏感属性的公平性优化算法
  • 基准数据集对比分析:作为标准基准,对比不同合成数据生成方法的公平性指标差异
  • 跨领域公平性研究:覆盖多领域数据,用于探究不同领域公平性问题的共性与特性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 42.47 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。