Pandas read_csv 大文件的 skiprows 需要太多时间来加载数据

Question

我有一个大文件（例如 20Gb）我想通过跳过行来读取该数据的一些样本但是跳过行和阅读几行需要太多时间

pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")

在文件中跳过行会占用太多时间吗？是不是一种更快地跳过行的方法？

Answer 1

您可以尝试逐块读取而不是跳过行

阅读您喜欢的块

iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )

Pandas read_csv 大文件的 skiprows 需要太多时间来加载数据

Pandas read_csv skiprows for large files take too much time to load data

dataset

large-data

pandas