dask 计算最小值的正确模式?
correct pattern for dask compute minimum?
这是调用 compute()
的正确方法吗?
def call_minmax_duration(data):
mmin = dd.DataFrame.min(data).compute()
mmax = dd.DataFrame.max(data).compute()
return mmin, mmax
两件事。
您的 data
变量应该是一个 dask.dataframe 对象,例如可能由 dd.from_pandas(...)
或 dd.read_csv(...)
创建的
其次,一次计算两个结果可能更好,这样共享的中间值只需要计算一次
例子
import dask.dataframe as dd
df = dd.read_csv('2016-*-*.csv')
dd.compute(df.mycolumn.min(), df.mycolumn.max())
这是调用 compute()
的正确方法吗?
def call_minmax_duration(data):
mmin = dd.DataFrame.min(data).compute()
mmax = dd.DataFrame.max(data).compute()
return mmin, mmax
两件事。
您的 data
变量应该是一个 dask.dataframe 对象,例如可能由 dd.from_pandas(...)
或 dd.read_csv(...)
其次,一次计算两个结果可能更好,这样共享的中间值只需要计算一次
例子
import dask.dataframe as dd
df = dd.read_csv('2016-*-*.csv')
dd.compute(df.mycolumn.min(), df.mycolumn.max())