tff.simulation.datasets.ClientData 从 CSV 文件构建联邦学习模型
tff.simulation.datasets.ClientData to build federated learning model from CSV files
我正在使用自己的数据集构建联邦学习模型。
我的目标是建立一个多分类模型。
数据显示在单独的 8 个 CSV 文件中。
我按照本post中的说明进行操作,如下面的代码所示。
dataset_paths = {
'client_0': '/content/ds1.csv',
'client_1': '/content/ds2.csv',
'client_2': '/content/ds3.csv',
'client_3': '/content/ds4.csv',
'client_4': '/content/ds5.csv',
}
def create_tf_dataset_for_client_fn(id):
path = dataset_paths.get(id)
if path is None:
raise ValueError(f'No dataset for client {id}')
return tf.data.Dataset.TextLineDataset(path)
source = tff.simulation.datasets.ClientData.from_clients_and_fn(
dataset_paths.keys(), create_tf_dataset_for_client_fn)
但它给了我这个错误
AttributeError: type object 'ClientData' has no attribute 'from_clients_and_fn'
我正在读这个 documentation 并且发现 .datasets
方法可以工作,所以我用 .from_clients_and_fn
替换并且错误消失了但我不知道它是否正确以及什么是下一个?
我的问题是:
- 这是将数据上传到客户端的正确方法吗?
- 如果不能单独上传CSV文件,我能否将所有数据合并到一个CSV文件中,然后将它们视为非IID数据并进行相应的训练?
我需要一些指导
提前致谢
在此设置中,考虑 tff.simulation.datasets.FilePerUserClientData
and tf.data.experimental.CsvDataset
可能有用。
这可能看起来像(为了示例,这会生成一些测试 CSV 数据,您使用的数据集可能具有其他形状):
dataset_paths = {
'client_0': '/content/ds1.csv',
'client_1': '/content/ds2.csv',
'client_2': '/content/ds3.csv',
'client_3': '/content/ds4.csv',
'client_4': '/content/ds5.csv',
}
# Create some test data for the sake of the example,
# normally we wouldn't do this.
for i, (id, path) in enumerate(dataset_paths.items()):
with open(path, 'w') as f:
for _ in range(i):
f.write(f'test,0.0,{i}\n')
# Values that will fill in any CSV cell if its missing,
# must match the dtypes above.
record_defaults = ['', 0.0, 0]
@tf.function
def create_tf_dataset_for_client_fn(dataset_path):
return tf.data.experimental.CsvDataset(
dataset_path, record_defaults=record_defaults )
source = tff.simulation.datasets.FilePerUserClientData(
dataset_paths, create_tf_dataset_for_client_fn)
print(source.client_ids)
>>> ['client_0', 'client_1', 'client_2', 'client_3', 'client_4']
for x in source.create_tf_dataset_for_client('client_3'):
print(x)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
也许可以将所有数据连接到一个 CSV 文件中,但每条记录仍需要一些标识符来指示哪一行属于哪个客户端。在没有任何类型 per-client 映射的情况下将所有行混合在一起类似于标准的集中训练,而不是联合学习。
一旦 CSV 包含所有行,也许还有一个具有 client_id
值的列,人们大概可以使用 tf.data.Dataset.filter()
来仅生成属于特定客户端的行。不过,这可能不会特别有效,因为它会为每个客户端遍历整个全局数据集,而不仅仅是该客户端的示例。
我正在使用自己的数据集构建联邦学习模型。 我的目标是建立一个多分类模型。 数据显示在单独的 8 个 CSV 文件中。
我按照本post中的说明进行操作,如下面的代码所示。
dataset_paths = {
'client_0': '/content/ds1.csv',
'client_1': '/content/ds2.csv',
'client_2': '/content/ds3.csv',
'client_3': '/content/ds4.csv',
'client_4': '/content/ds5.csv',
}
def create_tf_dataset_for_client_fn(id):
path = dataset_paths.get(id)
if path is None:
raise ValueError(f'No dataset for client {id}')
return tf.data.Dataset.TextLineDataset(path)
source = tff.simulation.datasets.ClientData.from_clients_and_fn(
dataset_paths.keys(), create_tf_dataset_for_client_fn)
但它给了我这个错误
AttributeError: type object 'ClientData' has no attribute 'from_clients_and_fn'
我正在读这个 documentation 并且发现 .datasets
方法可以工作,所以我用 .from_clients_and_fn
替换并且错误消失了但我不知道它是否正确以及什么是下一个?
我的问题是:
- 这是将数据上传到客户端的正确方法吗?
- 如果不能单独上传CSV文件,我能否将所有数据合并到一个CSV文件中,然后将它们视为非IID数据并进行相应的训练? 我需要一些指导
提前致谢
在此设置中,考虑 tff.simulation.datasets.FilePerUserClientData
and tf.data.experimental.CsvDataset
可能有用。
这可能看起来像(为了示例,这会生成一些测试 CSV 数据,您使用的数据集可能具有其他形状):
dataset_paths = {
'client_0': '/content/ds1.csv',
'client_1': '/content/ds2.csv',
'client_2': '/content/ds3.csv',
'client_3': '/content/ds4.csv',
'client_4': '/content/ds5.csv',
}
# Create some test data for the sake of the example,
# normally we wouldn't do this.
for i, (id, path) in enumerate(dataset_paths.items()):
with open(path, 'w') as f:
for _ in range(i):
f.write(f'test,0.0,{i}\n')
# Values that will fill in any CSV cell if its missing,
# must match the dtypes above.
record_defaults = ['', 0.0, 0]
@tf.function
def create_tf_dataset_for_client_fn(dataset_path):
return tf.data.experimental.CsvDataset(
dataset_path, record_defaults=record_defaults )
source = tff.simulation.datasets.FilePerUserClientData(
dataset_paths, create_tf_dataset_for_client_fn)
print(source.client_ids)
>>> ['client_0', 'client_1', 'client_2', 'client_3', 'client_4']
for x in source.create_tf_dataset_for_client('client_3'):
print(x)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
也许可以将所有数据连接到一个 CSV 文件中,但每条记录仍需要一些标识符来指示哪一行属于哪个客户端。在没有任何类型 per-client 映射的情况下将所有行混合在一起类似于标准的集中训练,而不是联合学习。
一旦 CSV 包含所有行,也许还有一个具有 client_id
值的列,人们大概可以使用 tf.data.Dataset.filter()
来仅生成属于特定客户端的行。不过,这可能不会特别有效,因为它会为每个客户端遍历整个全局数据集,而不仅仅是该客户端的示例。