使用 Python Faker 包的不同假数据的最大限制

Maximum Limit of distinct fake data using Python Faker package

我使用 Python Faker 来生成假数据。但我需要知道使用 faker（例如：fake.name() ）可以生成的不同假数据（例如：假名）的最大数量是多少。

我已经生成了 100,000 个假名，但得到的不同名称不到 76,000 个。我需要知道最大限制，这样我才能知道使用这个包生成数据我们可以扩展多少。

我需要生成庞大的数据集。我还想知道 Php faker, perl faker 对于不同的环境都是一样的吗？

我们将不胜感激其他用于生成庞大数据集的包。

我遇到了同样的问题并进行了更多调查。

在 en_US 提供程序中，大约有 1000 个姓氏和 750 个名字，用于大约 750000 个独特的组合。如果您随机 select 名字和姓氏，您可能会得到重复的名字。但实际上，现实世界就是这样运作的，那里有很多约翰·史密斯和罗伯特·道尔斯。

en 个人资料中有 7203 个名字和 473 个姓氏，可以提供一些帮助。 Faker 选择名字和姓氏的组合意味着大约有 7203 * 473 = 3407019.

但是，您仍然有可能得到重复项。

我通过给名字加上数字来解决这个问题。

I need to generate huge dataset.

请记住，在现实中，任何庞大的姓名数据集都会有重复项。我处理大型数据集（> 100 万个名字），我们看到大量重复的名字和姓氏。

如果您阅读了 faker 包代码，您可能会想出如何修改它以便获得所有 3M 不同的名称。