Pandas read_csv 大文件的 skiprows 需要太多时间来加载数据
Pandas read_csv skiprows for large files take too much time to load data
我有一个大文件(例如 20Gb)我想通过跳过行来读取该数据的一些样本
但是跳过行和阅读几行需要太多时间
pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")
在文件中跳过行会占用太多时间吗?是不是一种更快地跳过行的方法?
您可以尝试逐块读取而不是跳过行
阅读您喜欢的块
iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )
我有一个大文件(例如 20Gb)我想通过跳过行来读取该数据的一些样本 但是跳过行和阅读几行需要太多时间
pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")
在文件中跳过行会占用太多时间吗?是不是一种更快地跳过行的方法?
您可以尝试逐块读取而不是跳过行
阅读您喜欢的块
iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )