PyTables 检索最大值和最小值?
PyTables retrieve maximum and minimum values?
我创建了一个 Python 脚本,它从套接字接收时间序列数据并通过 PyTables 将其写入 HDF5 文件,如下所示:
#Define description object to pass to the table constructor
class DataPoint(tb.IsDescription):
timestamp = tb.Time64Col() #UNIX timestamp
value = tb.Float32Col() #Value
每次脚本运行时,它都会收到一些数据历史,这些数据以前会与未保存的新数据一起保存到文件中。我想确保带时间戳的行在文件中不重复,因此需要过滤到达。
为此,我需要检查文件中已有数据的范围,即存在的最大和最小时间戳值。
是否有人能够演示检索具有最大和最小时间戳的行的查询逻辑?
给你,一个带有 floats
的简单示例演示了将 HDF5 table/dataset 读取到 numpy 数组,然后使用 .max()
和 .min()
运算符获取 Max/Min,然后 .argmax()
和 .argmin()
来获取每个索引。我不熟悉 UNIX 时间戳的 Time64Col()
以及运算符的工作方式。我会让你弄明白的。 :-)
前 2 个示例使用不同的 PyTables 方法提取单个列。
第三种方法将整个 table 提取到数组中,然后使用 field/column 名称进行索引。
使用对您来说最有意义的技术。
请注意,数据是随机生成的,因此输出也是随机的。但是,第一种和第三种方法的输出应该始终相同。
import tables as tb
import numpy as np
# Create h5 file with 1 dataset
h5f = tb.open_file('SO_55266365.h5', 'w')
mydtype = np.dtype([('param1',float),('param2',float),('param3',float)])
arr = np.random.rand(500,3)
recarr = np.core.records.array(arr,dtype=mydtype)
h5f.create_table('/', 'set1', obj=recarr )
# Close, then Reopen file READ ONLY
h5f.close()
h5f = tb.open_file('SO_55266365.h5', 'r')
# Get first column (param1)
p1 = h5f.root.set1.col('param1')
print ('param 1 Max = ' , p1.max(), 'at row =' , p1.argmax() )
print ('param 1 Min = ' , p1.min(), 'at row =' , p1.argmin() )
# Get second column (param2)
p2 = h5f.root.set1.read(field='param2')
print ('param 2 Max = ' , p2.max(), 'at row =' , p2.argmax() )
print ('param 2 Min = ' , p2.min(), 'at row =' , p2.argmin() )
# Get all 3 columns
# (index to get column when referencing the object)
p123 = h5f.root.set1.read()
print ('param 1 Max = ' , p123['param1'].max(), 'at row =' , p123['param1'].argmax() )
print ('param 1 Min = ' , p123['param1'].min(), 'at row =' , p123['param1'].argmin() )
h5f.close()
我创建了一个 Python 脚本,它从套接字接收时间序列数据并通过 PyTables 将其写入 HDF5 文件,如下所示:
#Define description object to pass to the table constructor
class DataPoint(tb.IsDescription):
timestamp = tb.Time64Col() #UNIX timestamp
value = tb.Float32Col() #Value
每次脚本运行时,它都会收到一些数据历史,这些数据以前会与未保存的新数据一起保存到文件中。我想确保带时间戳的行在文件中不重复,因此需要过滤到达。
为此,我需要检查文件中已有数据的范围,即存在的最大和最小时间戳值。
是否有人能够演示检索具有最大和最小时间戳的行的查询逻辑?
给你,一个带有 floats
的简单示例演示了将 HDF5 table/dataset 读取到 numpy 数组,然后使用 .max()
和 .min()
运算符获取 Max/Min,然后 .argmax()
和 .argmin()
来获取每个索引。我不熟悉 UNIX 时间戳的 Time64Col()
以及运算符的工作方式。我会让你弄明白的。 :-)
前 2 个示例使用不同的 PyTables 方法提取单个列。
第三种方法将整个 table 提取到数组中,然后使用 field/column 名称进行索引。
使用对您来说最有意义的技术。
请注意,数据是随机生成的,因此输出也是随机的。但是,第一种和第三种方法的输出应该始终相同。
import tables as tb
import numpy as np
# Create h5 file with 1 dataset
h5f = tb.open_file('SO_55266365.h5', 'w')
mydtype = np.dtype([('param1',float),('param2',float),('param3',float)])
arr = np.random.rand(500,3)
recarr = np.core.records.array(arr,dtype=mydtype)
h5f.create_table('/', 'set1', obj=recarr )
# Close, then Reopen file READ ONLY
h5f.close()
h5f = tb.open_file('SO_55266365.h5', 'r')
# Get first column (param1)
p1 = h5f.root.set1.col('param1')
print ('param 1 Max = ' , p1.max(), 'at row =' , p1.argmax() )
print ('param 1 Min = ' , p1.min(), 'at row =' , p1.argmin() )
# Get second column (param2)
p2 = h5f.root.set1.read(field='param2')
print ('param 2 Max = ' , p2.max(), 'at row =' , p2.argmax() )
print ('param 2 Min = ' , p2.min(), 'at row =' , p2.argmin() )
# Get all 3 columns
# (index to get column when referencing the object)
p123 = h5f.root.set1.read()
print ('param 1 Max = ' , p123['param1'].max(), 'at row =' , p123['param1'].argmax() )
print ('param 1 Min = ' , p123['param1'].min(), 'at row =' , p123['param1'].argmin() )
h5f.close()