数据集概述
本数据集是MNIST训练数据集的联邦学习划分版本,包含三种不同配置的划分方式:平衡分布、异构分布(每个客户端一个类别)和混合分布。数据集将MNIST训练数据划分为10个客户端,并提供测试数据,适用于联邦学习算法的研究和实验。
文件详解
- 数据集根目录
- 文件名称:mnist_test.csv
- 文件格式:CSV
- 字段映射介绍:包含MNIST测试数据,字段包括label(标签)和28x28像素的图像数据(如1x1、1x2等)。
- 联邦学习划分目录(mnist-data-federated-learning.zip)
- 文件格式:ZIP
- 内容结构:包含三个配置目录(config1、config2、config3),每个配置目录下有10个客户端目录(client-1到client-10),每个客户端目录下有一个data.csv文件,存储该客户端的训练数据。
数据来源
MNIST数据集(由Yann LeCun和Corinna Cortes持有版权,基于NIST数据集的衍生作品)
适用场景
- 联邦学习算法研究:用于测试和比较不同联邦学习算法在三种数据分布下的性能。
- 数据隐私保护研究:探索在分布式数据环境中保护数据隐私的方法和技术。
- 机器学习模型训练:在联邦学习框架下训练图像分类模型,评估模型在不同数据分布下的泛化能力。
- 分布式系统优化:研究联邦学习系统中客户端数据分布对模型训练效率和准确性的影响。