使用 Python Faker 包的不同假数据的最大限制

Maximum Limit of distinct fake data using Python Faker package

我使用 Python Faker 来生成假数据。但我需要知道使用 faker(例如:fake.name() )可以生成的不同假数据(例如:假名)的最大数量是多少。

我已经生成了 100,000 个假名,但得到的不同名称不到 76,000 个。我需要知道最大限制,这样我才能知道使用这个包生成数据我们可以扩展多少。

我需要生成庞大的数据集。我还想知道 Php faker, perl faker 对于不同的环境都是一样的吗?

我们将不胜感激其他用于生成庞大数据集的包。

我遇到了同样的问题并进行了更多调查。

en_US 提供程序中,大约有 1000 个姓氏和 750 个名字,用于大约 750000 个独特的组合。如果您随机 select 名字和姓氏,您可能会得到重复的名字。但实际上,现实世界就是这样运作的,那里有很多约翰·史密斯和罗伯特·道尔斯。

en 个人资料中有 7203 个名字和 473 个姓氏,可以提供一些帮助。 Faker 选择名字和姓氏的组合意味着大约有 7203 * 473 = 3407019.

但是,您仍然有可能得到重复项。

我通过给名字加上数字来解决这个问题。

I need to generate huge dataset.

请记住,在现实中,任何庞大的姓名数据集都会有重复项。我处理大型数据集(> 100 万个名字),我们看到大量重复的名字和姓氏。

如果您阅读了 faker 包代码,您可能会想出如何修改它以便获得所有 3M 不同的名称。