用于摄取数据集并拆分为具有个人名称的较小数据集的功能？

Question

我有一个大型数据集，我想将其分成 10,000 行左右的块，并为每个数据集命名。现在我正在手动进行，但我知道有更好的方法。

df1 = df[0:10000]
df2 = df[10001:20000]

Answer 1

# some big DataFrame
# df = ...

# size of chunks
step = 10_000
chunks = [df[i:i+step] for i in range(0, len(df), step)]

Answer 2

阿里卡

数据来自哪里？

如果是文件，例如一个 CSV，一次可以读取 10000 行。

以下代码将创建一个包含键 DataFrame0、DataFrame1 等的字典

每个键的值将是一个包含 10,000 行的数据框。

import pandas as pd

data_iterator = pd.read_csv('bigcsv.csv', chunksize=10000, header=None)

for d in data_iterator:
    print(d)

Function for ingesting dataset and spilting into smaller datasets with individual names?