map_partitions 的 return 值是多少?
What is the return value of map_partitions?
dask API 说,map_partition 可以用于 "apply a Python function on each DataFrame partition." 从这个描述和 "map" 的通常行为来看,我希望 return map_partitions 的值是(类似于)长度等于分区数的列表。列表中的每个元素都应该是函数调用的 return 个值之一。
但是,对于以下代码,我不确定 return 值取决于什么:
#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)
#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
print('function called\n')
return VAL
#check result
out = ddf.map_partitions(helper).compute()
print(len(out))
VAL = pd.Series({'A': 1})
导致 4 个函数调用(可能是一个推断数据类型和 3 个用于分区)和一个 len == 3 和类型 pd.Series. 的输出
pd.DataFrame({'A': [1]})
结果相同,但结果类型为 pd.DataFrame.
VAL = None
导致 TypeError ... 为什么?难道 map_partition 的可能用途是 做 某事而不是 return 某事吗?
VAL = 1
仅导致 2 次函数调用。 map_partitions 的结果是整数 1。
因此,我想请教几个问题:
- map_partition的return值是如何确定的?
- 除了分区数之外,还有什么影响函数调用的数量/每个分区调用一次函数需要满足什么条件?
- 函数的 return 值应该是什么,只有 "does" 东西,即一个过程?
- 函数应该如何设计,returns任意对象?
Dask DataFrame.map_partitions function returns a new Dask Dataframe or Series, based on the output type of the mapped function. See the API documentation 进行了详尽的解释。
map_partitions的return值是如何确定的?
请参阅上面提到的 API 文档。
除了分区数之外,还有什么影响函数调用的数量/每个分区调用一次函数要满足什么条件?
你是对的,我们立即调用它一次来猜测输出的 dtypes/columns。您可以通过直接指定 meta=
关键字来避免这种情况。除此之外,该函数每个分区调用一次。
函数的 return 值应该是什么,只有 "does" 东西,即过程?
您总是可以 return 空数据框。您可能还想考虑将数据框转换为一系列 dask.delayed 对象,这些对象通常更常用于临时计算。
函数应该如何设计,returns任意对象?
如果您的函数没有 return series/dataframes 那么我建议将您的数据框转换为 dask.delayed 对象序列 DataFrame.to_delayed方法.
dask API 说,map_partition 可以用于 "apply a Python function on each DataFrame partition." 从这个描述和 "map" 的通常行为来看,我希望 return map_partitions 的值是(类似于)长度等于分区数的列表。列表中的每个元素都应该是函数调用的 return 个值之一。
但是,对于以下代码,我不确定 return 值取决于什么:
#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)
#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
print('function called\n')
return VAL
#check result
out = ddf.map_partitions(helper).compute()
print(len(out))
VAL = pd.Series({'A': 1})
导致 4 个函数调用(可能是一个推断数据类型和 3 个用于分区)和一个 len == 3 和类型 pd.Series. 的输出
pd.DataFrame({'A': [1]})
结果相同,但结果类型为 pd.DataFrame.VAL = None
导致 TypeError ... 为什么?难道 map_partition 的可能用途是 做 某事而不是 return 某事吗?VAL = 1
仅导致 2 次函数调用。 map_partitions 的结果是整数 1。
因此,我想请教几个问题:
- map_partition的return值是如何确定的?
- 除了分区数之外,还有什么影响函数调用的数量/每个分区调用一次函数需要满足什么条件?
- 函数的 return 值应该是什么,只有 "does" 东西,即一个过程?
- 函数应该如何设计,returns任意对象?
Dask DataFrame.map_partitions function returns a new Dask Dataframe or Series, based on the output type of the mapped function. See the API documentation 进行了详尽的解释。
map_partitions的return值是如何确定的?
请参阅上面提到的 API 文档。
除了分区数之外,还有什么影响函数调用的数量/每个分区调用一次函数要满足什么条件?
你是对的,我们立即调用它一次来猜测输出的 dtypes/columns。您可以通过直接指定
meta=
关键字来避免这种情况。除此之外,该函数每个分区调用一次。函数的 return 值应该是什么,只有 "does" 东西,即过程?
您总是可以 return 空数据框。您可能还想考虑将数据框转换为一系列 dask.delayed 对象,这些对象通常更常用于临时计算。
函数应该如何设计,returns任意对象?
如果您的函数没有 return series/dataframes 那么我建议将您的数据框转换为 dask.delayed 对象序列 DataFrame.to_delayed方法.