玩具示例的 pmap 慢
pmap slow for toy example
我正在 Julia 中测试并行性,看看我的机器是否有加速(我正在选择一种语言来实现新算法)。我不想花大量时间编写一个巨大的示例,所以我在发布版本 Julia 0.4.5(Mac OS X 和双核)上做了以下测试:
$ julia -p2
julia> @everywhere f(x) = x^2 + 10
julia> @time map(f, 1:10000000)
julia> @time pmap(f, 1:10000000)
pmap
明显比 map (>20x) 慢,并且分配的内存超过 10 倍。我做错了什么?
谢谢。
那是因为 pmap 旨在为每个内核执行繁重的计算,而不是许多简单的计算。如果你使用像你的功能一样简单的东西,沿着处理器移动信息的开销会比好处大。相反,测试此代码(我 运行 它在 i7 中具有 4 个内核):
function fast(x::Float64)
return x^2+1.0
end
function slow(x::Float64)
a = 1.0
for i in 1:1000
for j in 1:5000
a+=asinh(i+j)
end
end
return a
end
info("Precompilation")
map(fast,linspace(1,1000,1000))
pmap(fast,linspace(1,1000,1000))
map(slow,linspace(1,1000,10))
pmap(slow,linspace(1,1000,10))
info("Testing slow function")
@time map(slow,linspace(1,1000,10)) #3.69 s
@time pmap(slow,linspace(1,1000,10)) #0.003 s
info("Testing fast function")
@time map(fast,linspace(1,1000,1000)) #52 μs
@time pmap(fast,linspace(1,1000,1000)) #775 s
对于很多非常小的迭代的并行化,你可以使用@parallel,在文档中搜索它。
我正在 Julia 中测试并行性,看看我的机器是否有加速(我正在选择一种语言来实现新算法)。我不想花大量时间编写一个巨大的示例,所以我在发布版本 Julia 0.4.5(Mac OS X 和双核)上做了以下测试:
$ julia -p2
julia> @everywhere f(x) = x^2 + 10
julia> @time map(f, 1:10000000)
julia> @time pmap(f, 1:10000000)
pmap
明显比 map (>20x) 慢,并且分配的内存超过 10 倍。我做错了什么?
谢谢。
那是因为 pmap 旨在为每个内核执行繁重的计算,而不是许多简单的计算。如果你使用像你的功能一样简单的东西,沿着处理器移动信息的开销会比好处大。相反,测试此代码(我 运行 它在 i7 中具有 4 个内核):
function fast(x::Float64)
return x^2+1.0
end
function slow(x::Float64)
a = 1.0
for i in 1:1000
for j in 1:5000
a+=asinh(i+j)
end
end
return a
end
info("Precompilation")
map(fast,linspace(1,1000,1000))
pmap(fast,linspace(1,1000,1000))
map(slow,linspace(1,1000,10))
pmap(slow,linspace(1,1000,10))
info("Testing slow function")
@time map(slow,linspace(1,1000,10)) #3.69 s
@time pmap(slow,linspace(1,1000,10)) #0.003 s
info("Testing fast function")
@time map(fast,linspace(1,1000,1000)) #52 μs
@time pmap(fast,linspace(1,1000,1000)) #775 s
对于很多非常小的迭代的并行化,你可以使用@parallel,在文档中搜索它。