使用 Python Faker 包的不同假数据的最大限制
Maximum Limit of distinct fake data using Python Faker package
我使用 Python Faker 来生成假数据。但我需要知道使用 faker(例如:fake.name() )可以生成的不同假数据(例如:假名)的最大数量是多少。
我已经生成了 100,000 个假名,但得到的不同名称不到 76,000 个。我需要知道最大限制,这样我才能知道使用这个包生成数据我们可以扩展多少。
我需要生成庞大的数据集。我还想知道 Php faker, perl faker 对于不同的环境都是一样的吗?
我们将不胜感激其他用于生成庞大数据集的包。
我遇到了同样的问题并进行了更多调查。
在 en_US
提供程序中,大约有 1000 个姓氏和 750 个名字,用于大约 750000 个独特的组合。如果您随机 select 名字和姓氏,您可能会得到重复的名字。但实际上,现实世界就是这样运作的,那里有很多约翰·史密斯和罗伯特·道尔斯。
en
个人资料中有 7203 个名字和 473 个姓氏,可以提供一些帮助。 Faker 选择名字和姓氏的组合意味着大约有 7203 * 473 = 3407019.
但是,您仍然有可能得到重复项。
我通过给名字加上数字来解决这个问题。
I need to generate huge dataset.
请记住,在现实中,任何庞大的姓名数据集都会有重复项。我处理大型数据集(> 100 万个名字),我们看到大量重复的名字和姓氏。
如果您阅读了 faker 包代码,您可能会想出如何修改它以便获得所有 3M 不同的名称。
我使用 Python Faker 来生成假数据。但我需要知道使用 faker(例如:fake.name() )可以生成的不同假数据(例如:假名)的最大数量是多少。
我已经生成了 100,000 个假名,但得到的不同名称不到 76,000 个。我需要知道最大限制,这样我才能知道使用这个包生成数据我们可以扩展多少。
我需要生成庞大的数据集。我还想知道 Php faker, perl faker 对于不同的环境都是一样的吗?
我们将不胜感激其他用于生成庞大数据集的包。
我遇到了同样的问题并进行了更多调查。
在 en_US
提供程序中,大约有 1000 个姓氏和 750 个名字,用于大约 750000 个独特的组合。如果您随机 select 名字和姓氏,您可能会得到重复的名字。但实际上,现实世界就是这样运作的,那里有很多约翰·史密斯和罗伯特·道尔斯。
en
个人资料中有 7203 个名字和 473 个姓氏,可以提供一些帮助。 Faker 选择名字和姓氏的组合意味着大约有 7203 * 473 = 3407019.
但是,您仍然有可能得到重复项。
我通过给名字加上数字来解决这个问题。
I need to generate huge dataset.
请记住,在现实中,任何庞大的姓名数据集都会有重复项。我处理大型数据集(> 100 万个名字),我们看到大量重复的名字和姓氏。
如果您阅读了 faker 包代码,您可能会想出如何修改它以便获得所有 3M 不同的名称。