用于摄取数据集并拆分为具有个人名称的较小数据集的功能?

Function for ingesting dataset and spilting into smaller datasets with individual names?

我有一个大型数据集,我想将其分成 10,000 行左右的块,并为每个数据集命名。 现在我正在手动进行,但我知道有更好的方法。

df1 = df[0:10000]
df2 = df[10001:20000]
# some big DataFrame
# df = ...

# size of chunks
step = 10_000
chunks = [df[i:i+step] for i in range(0, len(df), step)]

阿里卡

数据来自哪里?

如果是文件,例如一个 CSV,一次可以读取 10000 行。

以下代码将创建一个包含键 DataFrame0、DataFrame1 等的字典

每个键的值将是一个包含 10,000 行的数据框。

import pandas as pd

data_iterator = pd.read_csv('bigcsv.csv', chunksize=10000, header=None)

for d in data_iterator:
    print(d)