NumPy 直方图 - ValueError 范围参数必须是有限的 - 输入数组没问题
NumPy Histogram - ValueError range parameter must be finite - input array is okay
我很难理解这个错误,因为我会给你一个有效的例子,我感兴趣的是不是。
我必须分析一组包含全年每小时价格的数据,称为 sys_prices
,经过各种转换后,它是一个具有 8785 行(1 列)的 numpy.ndarray
对象),每一行都是一个 numpy.ndarray
项目,只有一个元素,一个 numpy.float64
数字。
代码不工作如下:
stop_day = 95
start_day = stop_day - 10 # 10 days before
stop_day = (stop_day-1)*24
start_day = (start_day-1)*24
pcs=[] # list of prices to analyse
for ii in range(start_day, stop_day):
pcs.append(sys_prices[ii][0])
p, x = np.histogram(pcs, bins='fd')
*24
部分是调整数据集中的索引,以遵守每小时分辨率。
我期望的是将列表 pcs
提供给 histogram 方法,以便将直方图和 bin 边缘的值放入 p 和 x。
我说我预料到了这一点,因为下面的代码 有效 :
start_day = 1
start_month = 1
start_year = 2016
stop_day = 1
stop_month = 2
stop_year = 2016
num_prices = (date(stop_year, stop_month, stop_day) - date(start_year, start_month, start_day)).days*24
jan_prices = []
for ii in range(num_prices):
jan_prices.append(sys_prices[ii][0])
p, x = np.histogram(jan_prices, bins='fd') # bin the data`
代码的不同之处在于,工作示例仅分析从一年中选定的一天开始的任意时间段内的 10 天,而工作示例使用 1 月份的所有价格(例如数据集的前 744 个值)。
奇怪的(r)事情: 我为 stop_day
使用了不同的值,似乎 95 引发了错误,而 99 或 100 或 200 不要.
你能帮帮我吗?
我解决了,数据集中有一个我无法发现的 NaN。
对于那些想知道如何发现它的人,我只是使用这段代码来查找项目的索引:
nanlist=[]
for ii in range(len(array)):
if numpy.isnan(array[ii]):
nanlist.append(ii)
其中 array
是您的容器。
出现问题是因为,默认情况下,直方图使用 min(pcs) 和 max(pcs) 来确定 bin 的最小和最大范围,但是由于数据集中有 nans,min 和 max 变为 nans。您可以通过对范围参数使用 np.nanmin
和 np.nanmax
来解决此问题。
p, x = np.histogram(pcs, range=(np.nanmin(pcs), np.nanmax(pcs)) bins='fd')
我认为这比接受的答案更好,因为它不需要修改 pc。
我很难理解这个错误,因为我会给你一个有效的例子,我感兴趣的是不是。
我必须分析一组包含全年每小时价格的数据,称为 sys_prices
,经过各种转换后,它是一个具有 8785 行(1 列)的 numpy.ndarray
对象),每一行都是一个 numpy.ndarray
项目,只有一个元素,一个 numpy.float64
数字。
代码不工作如下:
stop_day = 95
start_day = stop_day - 10 # 10 days before
stop_day = (stop_day-1)*24
start_day = (start_day-1)*24
pcs=[] # list of prices to analyse
for ii in range(start_day, stop_day):
pcs.append(sys_prices[ii][0])
p, x = np.histogram(pcs, bins='fd')
*24
部分是调整数据集中的索引,以遵守每小时分辨率。
我期望的是将列表 pcs
提供给 histogram 方法,以便将直方图和 bin 边缘的值放入 p 和 x。
我说我预料到了这一点,因为下面的代码 有效 :
start_day = 1
start_month = 1
start_year = 2016
stop_day = 1
stop_month = 2
stop_year = 2016
num_prices = (date(stop_year, stop_month, stop_day) - date(start_year, start_month, start_day)).days*24
jan_prices = []
for ii in range(num_prices):
jan_prices.append(sys_prices[ii][0])
p, x = np.histogram(jan_prices, bins='fd') # bin the data`
代码的不同之处在于,工作示例仅分析从一年中选定的一天开始的任意时间段内的 10 天,而工作示例使用 1 月份的所有价格(例如数据集的前 744 个值)。
奇怪的(r)事情: 我为 stop_day
使用了不同的值,似乎 95 引发了错误,而 99 或 100 或 200 不要.
你能帮帮我吗?
我解决了,数据集中有一个我无法发现的 NaN。
对于那些想知道如何发现它的人,我只是使用这段代码来查找项目的索引:
nanlist=[]
for ii in range(len(array)):
if numpy.isnan(array[ii]):
nanlist.append(ii)
其中 array
是您的容器。
出现问题是因为,默认情况下,直方图使用 min(pcs) 和 max(pcs) 来确定 bin 的最小和最大范围,但是由于数据集中有 nans,min 和 max 变为 nans。您可以通过对范围参数使用 np.nanmin
和 np.nanmax
来解决此问题。
p, x = np.histogram(pcs, range=(np.nanmin(pcs), np.nanmax(pcs)) bins='fd')
我认为这比接受的答案更好,因为它不需要修改 pc。