如何在 python 中创建综合客户数据
How to create synthetic customer data in python
我有一些客户资料 -
Name | Age | Gender | Phone Number | Email Id |
abc. | 25 | M. | 234 567 890 | example.com|
这样的数据有60k行,还有多个表。如何使用 python 为该数据集制作合成数据?
我对此一无所知。任何的意见都将会有帮助。谢谢!
Python faker
是你的朋友。它可以为姓名、地址、phone 和信用卡号码等生成本地化的虚假数据。
from faker import Faker
fake = Faker()
n = 1000
df = pd.DataFrame([[fake.name(),
np.random.randint(19,91),
np.random.choice(['M.', 'F.']),
fake.phone_number(),
fake.email()] for _ in range(n)],
columns=['Name', 'Age', 'Gender', 'Phone number', 'Email ID'])
df.head() 的输出:
Name Age Gender Phone number Email ID
0 Miranda Hinton 21 F. 018.482.1404 meghan91@lopez.biz
1 Donald Donovan 51 F. 572.846.4120x995 jacobcarson@melton.com
2 Shannon Grimes 72 F. 0289879995 phillip93@gmail.com
3 Heather Perez 87 F. 012-033-2318 rodriguezjeffrey@hotmail.com
4 Jacqueline Pearson 22 M. 178-913-4566x89793 brianclark@hotmail.com
我有一些客户资料 -
Name | Age | Gender | Phone Number | Email Id |
abc. | 25 | M. | 234 567 890 | example.com|
这样的数据有60k行,还有多个表。如何使用 python 为该数据集制作合成数据?
我对此一无所知。任何的意见都将会有帮助。谢谢!
Python faker
是你的朋友。它可以为姓名、地址、phone 和信用卡号码等生成本地化的虚假数据。
from faker import Faker
fake = Faker()
n = 1000
df = pd.DataFrame([[fake.name(),
np.random.randint(19,91),
np.random.choice(['M.', 'F.']),
fake.phone_number(),
fake.email()] for _ in range(n)],
columns=['Name', 'Age', 'Gender', 'Phone number', 'Email ID'])
df.head() 的输出:
Name Age Gender Phone number Email ID
0 Miranda Hinton 21 F. 018.482.1404 meghan91@lopez.biz
1 Donald Donovan 51 F. 572.846.4120x995 jacobcarson@melton.com
2 Shannon Grimes 72 F. 0289879995 phillip93@gmail.com
3 Heather Perez 87 F. 012-033-2318 rodriguezjeffrey@hotmail.com
4 Jacqueline Pearson 22 M. 178-913-4566x89793 brianclark@hotmail.com