如何建立不平衡和小数据集的联邦学习模型

How to build federated learning model of unbalanced and small dataset

我正在使用 TFF 构建联邦学习模型,我有一些问题:

  1. 我正在准备数据集,我有单独的数据文件,具有相同的特征和不同的样本。我会将这些文件中的每一个都视为一个客户端。我如何在 TFF 中维护它?

  2. 数据不均衡,即每个文件的数据大小不一。这会影响建模过程吗?

  3. 数据量有点小,一个文件(客户端)300条记录,一个1500条记录,是否适合建立联邦学习模型?

提前致谢

  1. 您可以为数据集创建一个 ClientData,请参阅 Working with tff's ClientData
  2. 无需平衡数据集即可构建联合学习模型。在 https://arxiv.org/abs/1602.05629 中,服务器对客户端的模型更新进行加权联合平均,其中权重是每个客户端拥有的样本数。
  3. 每个客户端几百条记录不亚于 EMNIST dataset, so that would be fine. About the total number of clients: this tutorial 显示 FL 有 10 个客户端,您可以 运行 较小 NUM_CLIENTS 的 colab 看看它是如何工作的示例数据集。