如何检查 PySpark 使用了多少个内核?
How to check how many cores PySpark uses?
我已经安装了 VirtualBox(Ubuntu 18.04.2 64 位)和 PySpark 2.4.0。当我创建一个 VB 时,我将 4 个 CPU 设为最大值。
我应该如何检查 Spark 使用了多少个内核?
这取决于描述要使用的运行时环境(集群管理器)的master URL。
由于这是一个面向基础设施的低级事物,您可以通过查询 SparkContext
实例找到答案。
例如如果它是 local[*]
,则意味着您想使用本地 JVM 上可用的尽可能多的 CPU(星号部分)。
$ ./bin/pyspark
Python 2.7.15 (default, Feb 19 2019, 09:17:37)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.11.45.5)] on darwin
...
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.4.0
/_/
Using Python version 2.7.15 (default, Feb 19 2019 09:17:37)
SparkSession available as 'spark'.
>>> print sc.master
local[*]
>>> print sc.defaultParallelism
8
我已经安装了 VirtualBox(Ubuntu 18.04.2 64 位)和 PySpark 2.4.0。当我创建一个 VB 时,我将 4 个 CPU 设为最大值。
我应该如何检查 Spark 使用了多少个内核?
这取决于描述要使用的运行时环境(集群管理器)的master URL。
由于这是一个面向基础设施的低级事物,您可以通过查询 SparkContext
实例找到答案。
例如如果它是 local[*]
,则意味着您想使用本地 JVM 上可用的尽可能多的 CPU(星号部分)。
$ ./bin/pyspark
Python 2.7.15 (default, Feb 19 2019, 09:17:37)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.11.45.5)] on darwin
...
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.4.0
/_/
Using Python version 2.7.15 (default, Feb 19 2019 09:17:37)
SparkSession available as 'spark'.
>>> print sc.master
local[*]
>>> print sc.defaultParallelism
8