使用 numpy 从 csv 加载一定数量的行
load a certain number of rows from csv with numpy
我有一个很长的文件,我只需要其中的一部分。
有新数据进来,所以文件可能会变长。
我使用 numpy.genfromtxt
从 CSV 加载数据
np.genfromtxt(filename, usecols={col}, delimiter=",", skip_header=skip_head)
这会在开始时切断文件的某些部分,这已经大大加快了加载数据的过程。
但是我最后不能使用 skip_footer
来切断我想要使用的切片之后的部分。
我想要的是只加载一定数量的行。例如假设我跳过前 100 行,然后加载接下来的 50 行,然后跳过其余行。
编辑:我正在使用 Python 3.4
编辑:示例文件:http://www.file-upload.net/download-10819938/sample.txt.html
您可以使用 itertools 获取切片,使用 itemgetter 获取列:
import numpy as np
from operator import itemgetter
import csv
with open(filename) as f:
from itertools import islice,imap
r = csv.reader(f)
np.genfromtxt(imap(itemgetter(1),islice(r, start, end+1)))
对于python3,你可以在上面的代码中使用fromiter
你需要指定数据类型:
import numpy as np
from operator import itemgetter
import csv
with open("sample.txt") as f:
from itertools import islice
r = csv.reader(f)
print(np.fromiter(map(itemgetter(0), islice(r, start, end+1)), dtype=float))
与其他答案一样,您也可以将 islice 对象直接传递给 genfromtxt 但对于 python3,您需要以二进制模式打开文件:
with open("sample.txt", "rb") as f:
from itertools import islice
print(np.genfromtxt(islice(f, start, end+1), delimiter=",", usecols=cols))
有趣的是,对于使用 itertools.chain 的多列,如果所有数据类型都相同,则重塑的效率是原来的两倍多:
from itertools import islice,chain
with open("sample.txt") as f:
r = csv.reader(f)
arr =np.fromiter(chain.from_iterable(map(itemgetter(0, 4, 10),
islice(r, 4, 10))), dtype=float).reshape(6, -1)
关于你的示例文件:
In [27]: %%timeit
with open("sample.txt", "rb") as f:
(np.genfromtxt(islice(f, 4, 10), delimiter=",", usecols=(0, 4, 10),dtype=float))
....:
10000 loops, best of 3: 179 µs per loop
In [28]: %%timeit
with open("sample.txt") as f:
r = csv.reader(f) (np.fromiter(chain.from_iterable(map(itemgetter(0, 4, 10), islice(r, 4, 10))), dtype=float).reshape(6, -1))
10000 loops, best of 3: 86 µs per loop
在 this example 之后,您应该可以使用 itertools.islice
,而不需要 imap
、map
或 csv.reader
:
import numpy as np
import itertools
with open('sample.txt') as f:
# this will skip 100 lines, then read the next 50
d=np.genfromtxt(itertools.islice(f,100,150),delimiter=',',usecols={cols})
开始 Numpy 1.10
,np.genfromtxt
接受一个可选参数 max_rows
,它限制了要读取的行数。
结合其他可选参数 skip_header
,您可以 select 文件的一部分(例如第 100 到 150 行):
import numpy as np
np.loadtxt('file.txt', skip_header=100, max_rows=50)
我有一个很长的文件,我只需要其中的一部分。 有新数据进来,所以文件可能会变长。
我使用 numpy.genfromtxt
np.genfromtxt(filename, usecols={col}, delimiter=",", skip_header=skip_head)
这会在开始时切断文件的某些部分,这已经大大加快了加载数据的过程。
但是我最后不能使用 skip_footer
来切断我想要使用的切片之后的部分。
我想要的是只加载一定数量的行。例如假设我跳过前 100 行,然后加载接下来的 50 行,然后跳过其余行。
编辑:我正在使用 Python 3.4
编辑:示例文件:http://www.file-upload.net/download-10819938/sample.txt.html
您可以使用 itertools 获取切片,使用 itemgetter 获取列:
import numpy as np
from operator import itemgetter
import csv
with open(filename) as f:
from itertools import islice,imap
r = csv.reader(f)
np.genfromtxt(imap(itemgetter(1),islice(r, start, end+1)))
对于python3,你可以在上面的代码中使用fromiter
你需要指定数据类型:
import numpy as np
from operator import itemgetter
import csv
with open("sample.txt") as f:
from itertools import islice
r = csv.reader(f)
print(np.fromiter(map(itemgetter(0), islice(r, start, end+1)), dtype=float))
与其他答案一样,您也可以将 islice 对象直接传递给 genfromtxt 但对于 python3,您需要以二进制模式打开文件:
with open("sample.txt", "rb") as f:
from itertools import islice
print(np.genfromtxt(islice(f, start, end+1), delimiter=",", usecols=cols))
有趣的是,对于使用 itertools.chain 的多列,如果所有数据类型都相同,则重塑的效率是原来的两倍多:
from itertools import islice,chain
with open("sample.txt") as f:
r = csv.reader(f)
arr =np.fromiter(chain.from_iterable(map(itemgetter(0, 4, 10),
islice(r, 4, 10))), dtype=float).reshape(6, -1)
关于你的示例文件:
In [27]: %%timeit
with open("sample.txt", "rb") as f:
(np.genfromtxt(islice(f, 4, 10), delimiter=",", usecols=(0, 4, 10),dtype=float))
....:
10000 loops, best of 3: 179 µs per loop
In [28]: %%timeit
with open("sample.txt") as f:
r = csv.reader(f) (np.fromiter(chain.from_iterable(map(itemgetter(0, 4, 10), islice(r, 4, 10))), dtype=float).reshape(6, -1))
10000 loops, best of 3: 86 µs per loop
在 this example 之后,您应该可以使用 itertools.islice
,而不需要 imap
、map
或 csv.reader
:
import numpy as np
import itertools
with open('sample.txt') as f:
# this will skip 100 lines, then read the next 50
d=np.genfromtxt(itertools.islice(f,100,150),delimiter=',',usecols={cols})
开始 Numpy 1.10
,np.genfromtxt
接受一个可选参数 max_rows
,它限制了要读取的行数。
结合其他可选参数 skip_header
,您可以 select 文件的一部分(例如第 100 到 150 行):
import numpy as np
np.loadtxt('file.txt', skip_header=100, max_rows=50)