联邦学习中的 Epochs 与 Rounds
Epochs vs Rounds in federated learning
我正在我的联合学习模型上应用联合平均。在 运行 模型数千轮之后模型仍然没有收敛。
如何增加训练中的轮数,它与轮数有何不同?
我怎样才能达到收敛,因为我试图增加轮数但是训练时间很长(我正在使用Google Colab,执行时间不能超过24小时我也试过订阅Google Colab Pro 使用 GPU 但效果不佳)
代码和训练结果如下
train_data = [train.create_tf_dataset_for_client(c).repeat(2).map(reshape_data)
.batch(batch_size=50,num_parallel_calls=50)
for c in train_client_ids]
iterative_process = tff.learning.build_federated_averaging_process(
model_fn,
client_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=0.0001),
server_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=0.9))
NUM_ROUNDS = 50000
state = iterative_process.initialize()
logdir = "/tmp/logs/scalars/training/"
summary_writer = tf.summary.create_file_writer(logdir)
with summary_writer.as_default():
for round_num in range(0, NUM_ROUNDS):
state, metrics = iterative_process.next(state, train_data)
if (round_num% 1000) == 0:
print('round {:2d}, metrics={}'.format(round_num, metrics))
for name, value in metrics['train'].items():
tf.summary.scalar(name, value, step=round_num)
输出如图
参见this tutorial了解如何增加epochs(基本上增加.repeat()
中的数字)。 epochs 的数量是客户端在每个批次上训练的迭代次数。轮数是联邦计算的总次数。
我正在我的联合学习模型上应用联合平均。在 运行 模型数千轮之后模型仍然没有收敛。 如何增加训练中的轮数,它与轮数有何不同? 我怎样才能达到收敛,因为我试图增加轮数但是训练时间很长(我正在使用Google Colab,执行时间不能超过24小时我也试过订阅Google Colab Pro 使用 GPU 但效果不佳)
代码和训练结果如下
train_data = [train.create_tf_dataset_for_client(c).repeat(2).map(reshape_data)
.batch(batch_size=50,num_parallel_calls=50)
for c in train_client_ids]
iterative_process = tff.learning.build_federated_averaging_process(
model_fn,
client_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=0.0001),
server_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=0.9))
NUM_ROUNDS = 50000
state = iterative_process.initialize()
logdir = "/tmp/logs/scalars/training/"
summary_writer = tf.summary.create_file_writer(logdir)
with summary_writer.as_default():
for round_num in range(0, NUM_ROUNDS):
state, metrics = iterative_process.next(state, train_data)
if (round_num% 1000) == 0:
print('round {:2d}, metrics={}'.format(round_num, metrics))
for name, value in metrics['train'].items():
tf.summary.scalar(name, value, step=round_num)
输出如图
参见this tutorial了解如何增加epochs(基本上增加.repeat()
中的数字)。 epochs 的数量是客户端在每个批次上训练的迭代次数。轮数是联邦计算的总次数。