如何在 python 中创建综合客户数据

How to create synthetic customer data in python

我有一些客户资料 -

Name |  Age |  Gender |  Phone Number | Email Id |

abc. |  25  |  M.     | 234 567 890   | example.com|

这样的数据有60k行,还有多个表。如何使用 python 为该数据集制作合成数据?

我对此一无所知。任何的意见都将会有帮助。谢谢!

Python faker 是你的朋友。它可以为姓名、地址、phone 和信用卡号码等生成本地化的虚假数据。

from faker import Faker
fake = Faker()
n = 1000
df = pd.DataFrame([[fake.name(),
        np.random.randint(19,91),
        np.random.choice(['M.', 'F.']),
        fake.phone_number(),
        fake.email()] for _ in range(n)],
        columns=['Name', 'Age', 'Gender', 'Phone number', 'Email ID'])

df.head() 的输出:

                 Name  Age Gender        Phone number                      Email ID
0      Miranda Hinton   21     F.        018.482.1404            meghan91@lopez.biz
1      Donald Donovan   51     F.    572.846.4120x995        jacobcarson@melton.com
2      Shannon Grimes   72     F.          0289879995           phillip93@gmail.com
3       Heather Perez   87     F.        012-033-2318  rodriguezjeffrey@hotmail.com
4  Jacqueline Pearson   22     M.  178-913-4566x89793        brianclark@hotmail.com