如何阅读大型文本文件避免逐行阅读 :: Python
How to read a large text file avoiding reading line-by-line :: Python
我有一个大数据文件 (N,4),我正在逐行映射。我的文件是 10 GB,下面给出了一个简单的实现。虽然以下工作有效,但需要大量时间。
我想实现此逻辑,以便直接读取文本文件并且我可以访问元素。此后,我需要根据第 2 列元素对整个(映射的)文件进行排序。
我在网上看到的示例假设数据块较小 (d
) 并使用 f[:] = d[:]
但我不能这样做,因为 d
在我的情况下很大并且吃掉了我的内存。
PS:我知道如何使用 np.loadtxt
加载文件并使用 argsort
对它们进行排序,但是对于 GB 文件大小,该逻辑失败(内存错误)。不胜感激。
nrows, ncols = 20000000, 4 # nrows is really larger than this no. this is just for illustration
f = np.memmap('memmapped.dat', dtype=np.float32,
mode='w+', shape=(nrows, ncols))
filename = "my_file.txt"
with open(filename) as file:
for i, line in enumerate(file):
floats = [float(x) for x in line.split(',')]
f[i, :] = floats
del f
编辑:与其自己动手分块,不如使用 pandas 的分块功能,这比 numpy 的 load_txt
.
快得多
import numpy as np
import pandas as pd
## create csv file for testing
np.random.seed(1)
nrows, ncols = 100000, 4
data = np.random.uniform(size=(nrows, ncols))
np.savetxt('bigdata.csv', data, delimiter=',')
## read it back
chunk_rows = 12345
# Replace np.empty by np.memmap array for large datasets.
odata = np.empty((nrows, ncols), dtype=np.float32)
oindex = 0
chunks = pd.read_csv('bigdata.csv', chunksize=chunk_rows,
names=['a', 'b', 'c', 'd'])
for chunk in chunks:
m, _ = chunk.shape
odata[oindex:oindex+m, :] = chunk
oindex += m
# check that it worked correctly.
assert np.allclose(data, odata, atol=1e-7)
分块模式下的pd.read_csv
函数return是一个可以在循环中使用的特殊对象,例如for chunk in chunks:
;在每次迭代中,它将读取文件的一个块和 return 其内容作为 pandas DataFrame
,在这种情况下可以将其视为一个 numpy 数组。需要参数 names
以防止它将 csv 文件的第一行视为列名。
下面是旧答案
numpy.loadtxt
函数使用文件名或将 return 行在构造循环中的内容,例如:
for line in f:
do_something()
它甚至不需要伪装成一个文件;一个字符串列表就可以了!
我们可以读取小到足以放入内存的文件块,并向 np.loadtxt
提供批量行。
def get_file_lines(fname, seek, maxlen):
"""Read lines from a section of a file.
Parameters:
- fname: filename
- seek: start position in the file
- maxlen: maximum length (bytes) to read
Return:
- lines: list of lines (only entire lines).
- seek_end: seek position at end of this chunk.
Reference:
Copying: any of CC-BY-SA, CC-BY, GPL, BSD, LPGL
Author: Han-Kwang Nienhuys
"""
f = open(fname, 'rb') # binary for Windows \r\n line endings
f.seek(seek)
buf = f.read(maxlen)
n = len(buf)
if n == 0:
return [], seek
# find a newline near the end
for i in range(min(10000, n)):
if buf[-i] == 0x0a:
# newline
buflen = n - i + 1
lines = buf[:buflen].decode('utf-8').split('\n')
seek_end = seek + buflen
return lines, seek_end
else:
raise ValueError('Could not find end of line')
import numpy as np
## create csv file for testing
np.random.seed(1)
nrows, ncols = 10000, 4
data = np.random.uniform(size=(nrows, ncols))
np.savetxt('bigdata.csv', data, delimiter=',')
# read it back
fpos = 0
chunksize = 456 # Small value for testing; make this big (megabytes).
# we will store the data here. Replace by memmap array if necessary.
odata = np.empty((nrows, ncols), dtype=np.float32)
oindex = 0
while True:
lines, fpos = get_file_lines('bigdata.csv', fpos, chunksize)
if not lines:
# end of file
break
rdata = np.loadtxt(lines, delimiter=',')
m, _ = rdata.shape
odata[oindex:oindex+m, :] = rdata
oindex += m
assert np.allclose(data, odata, atol=1e-7)
免责声明:我在 Linux 中对此进行了测试。我希望这在 Windows 中有效,但可能是处理 '\r' 字符导致问题。
我知道这不是答案,但您是否考虑过使用二进制文件?当文件非常大时,用 ascii 保存是非常低效的。如果可以,请改用 np.save 和 np.load。
我有一个大数据文件 (N,4),我正在逐行映射。我的文件是 10 GB,下面给出了一个简单的实现。虽然以下工作有效,但需要大量时间。
我想实现此逻辑,以便直接读取文本文件并且我可以访问元素。此后,我需要根据第 2 列元素对整个(映射的)文件进行排序。
我在网上看到的示例假设数据块较小 (d
) 并使用 f[:] = d[:]
但我不能这样做,因为 d
在我的情况下很大并且吃掉了我的内存。
PS:我知道如何使用 np.loadtxt
加载文件并使用 argsort
对它们进行排序,但是对于 GB 文件大小,该逻辑失败(内存错误)。不胜感激。
nrows, ncols = 20000000, 4 # nrows is really larger than this no. this is just for illustration
f = np.memmap('memmapped.dat', dtype=np.float32,
mode='w+', shape=(nrows, ncols))
filename = "my_file.txt"
with open(filename) as file:
for i, line in enumerate(file):
floats = [float(x) for x in line.split(',')]
f[i, :] = floats
del f
编辑:与其自己动手分块,不如使用 pandas 的分块功能,这比 numpy 的 load_txt
.
import numpy as np
import pandas as pd
## create csv file for testing
np.random.seed(1)
nrows, ncols = 100000, 4
data = np.random.uniform(size=(nrows, ncols))
np.savetxt('bigdata.csv', data, delimiter=',')
## read it back
chunk_rows = 12345
# Replace np.empty by np.memmap array for large datasets.
odata = np.empty((nrows, ncols), dtype=np.float32)
oindex = 0
chunks = pd.read_csv('bigdata.csv', chunksize=chunk_rows,
names=['a', 'b', 'c', 'd'])
for chunk in chunks:
m, _ = chunk.shape
odata[oindex:oindex+m, :] = chunk
oindex += m
# check that it worked correctly.
assert np.allclose(data, odata, atol=1e-7)
分块模式下的pd.read_csv
函数return是一个可以在循环中使用的特殊对象,例如for chunk in chunks:
;在每次迭代中,它将读取文件的一个块和 return 其内容作为 pandas DataFrame
,在这种情况下可以将其视为一个 numpy 数组。需要参数 names
以防止它将 csv 文件的第一行视为列名。
下面是旧答案
numpy.loadtxt
函数使用文件名或将 return 行在构造循环中的内容,例如:
for line in f:
do_something()
它甚至不需要伪装成一个文件;一个字符串列表就可以了!
我们可以读取小到足以放入内存的文件块,并向 np.loadtxt
提供批量行。
def get_file_lines(fname, seek, maxlen):
"""Read lines from a section of a file.
Parameters:
- fname: filename
- seek: start position in the file
- maxlen: maximum length (bytes) to read
Return:
- lines: list of lines (only entire lines).
- seek_end: seek position at end of this chunk.
Reference:
Copying: any of CC-BY-SA, CC-BY, GPL, BSD, LPGL
Author: Han-Kwang Nienhuys
"""
f = open(fname, 'rb') # binary for Windows \r\n line endings
f.seek(seek)
buf = f.read(maxlen)
n = len(buf)
if n == 0:
return [], seek
# find a newline near the end
for i in range(min(10000, n)):
if buf[-i] == 0x0a:
# newline
buflen = n - i + 1
lines = buf[:buflen].decode('utf-8').split('\n')
seek_end = seek + buflen
return lines, seek_end
else:
raise ValueError('Could not find end of line')
import numpy as np
## create csv file for testing
np.random.seed(1)
nrows, ncols = 10000, 4
data = np.random.uniform(size=(nrows, ncols))
np.savetxt('bigdata.csv', data, delimiter=',')
# read it back
fpos = 0
chunksize = 456 # Small value for testing; make this big (megabytes).
# we will store the data here. Replace by memmap array if necessary.
odata = np.empty((nrows, ncols), dtype=np.float32)
oindex = 0
while True:
lines, fpos = get_file_lines('bigdata.csv', fpos, chunksize)
if not lines:
# end of file
break
rdata = np.loadtxt(lines, delimiter=',')
m, _ = rdata.shape
odata[oindex:oindex+m, :] = rdata
oindex += m
assert np.allclose(data, odata, atol=1e-7)
免责声明:我在 Linux 中对此进行了测试。我希望这在 Windows 中有效,但可能是处理 '\r' 字符导致问题。
我知道这不是答案,但您是否考虑过使用二进制文件?当文件非常大时,用 ascii 保存是非常低效的。如果可以,请改用 np.save 和 np.load。