dask 计算最小值的正确模式?

correct pattern for dask compute minimum?

这是调用 compute() 的正确方法吗?

def call_minmax_duration(data):
    mmin = dd.DataFrame.min(data).compute()
    mmax = dd.DataFrame.max(data).compute()
    return mmin, mmax

两件事。

您的 data 变量应该是一个 dask.dataframe 对象,例如可能由 dd.from_pandas(...)dd.read_csv(...)

创建的

其次,一次计算两个结果可能更好,这样共享的中间值只需要计算一次

例子

import dask.dataframe as dd
df = dd.read_csv('2016-*-*.csv')

dd.compute(df.mycolumn.min(), df.mycolumn.max())