用于摄取数据集并拆分为具有个人名称的较小数据集的功能?
Function for ingesting dataset and spilting into smaller datasets with individual names?
我有一个大型数据集,我想将其分成 10,000 行左右的块,并为每个数据集命名。
现在我正在手动进行,但我知道有更好的方法。
df1 = df[0:10000]
df2 = df[10001:20000]
# some big DataFrame
# df = ...
# size of chunks
step = 10_000
chunks = [df[i:i+step] for i in range(0, len(df), step)]
阿里卡
数据来自哪里?
如果是文件,例如一个 CSV,一次可以读取 10000 行。
以下代码将创建一个包含键 DataFrame0、DataFrame1 等的字典
每个键的值将是一个包含 10,000 行的数据框。
import pandas as pd
data_iterator = pd.read_csv('bigcsv.csv', chunksize=10000, header=None)
for d in data_iterator:
print(d)
我有一个大型数据集,我想将其分成 10,000 行左右的块,并为每个数据集命名。 现在我正在手动进行,但我知道有更好的方法。
df1 = df[0:10000]
df2 = df[10001:20000]
# some big DataFrame
# df = ...
# size of chunks
step = 10_000
chunks = [df[i:i+step] for i in range(0, len(df), step)]
阿里卡
数据来自哪里?
如果是文件,例如一个 CSV,一次可以读取 10000 行。
以下代码将创建一个包含键 DataFrame0、DataFrame1 等的字典
每个键的值将是一个包含 10,000 行的数据框。
import pandas as pd
data_iterator = pd.read_csv('bigcsv.csv', chunksize=10000, header=None)
for d in data_iterator:
print(d)